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本 书 围绕 大 数据 背景 下 的 数据 挖掘 及 应 用 问题 ,从 大 数据 挖掘 的 基本 概念 人 手 ,由 浅 人 深 、 循 序 渐 
进 地 介绍 了 大 数据 挖掘 分 析 过 程 中 的 数据 准备 和 预 处 理 方法 、 数 据 可 视 化 技术 、 数 据 挖掘 理论 和 经 典 算 
法 ,常用 大 数据 分 析 计 算 平台 的 编程 模型 .并行 化 程序 设计 技术 ,统计 分 析 R 语言 基础 等 内 容 。 其 中 数 
据 挖掘 理论 和 经 典 算法 不 仅 覆 盖 了 传统 的 关联 分 析 、 分 类 和 聚 类 ,还 包括 深度 学 习 理 论 等 数据 挖掘 研 究 
和 发 展 的 潮流 主题 。 每 一 章 内 容 都 尽量 从 不 同 角度 进行 深入 浅 出 的 剖析 ,还 配 以 丰富 的 习题 和 参考 文 
献 ,对 于 读者 掌握 大 数据 挖掘 及 应 用 领域 的 基本 知识 和 进一步 研究 都 具有 参考 价值 。 本 书 可 以 作为 高 
校本 科 相 关 专 业 数据 分 析 类 课程 教材 和 面向 各 专业 的 数据 科学 通 识 教材 ,也 可 供 广 大 IT 从 业 人 员 
参考 。 
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人 类 社会 ,在 经 历 过 农业 社会 .工业 社会 之 后 ,经 过 近 几 十 年 的 信息 化 建设 ,已 经 发 展 
成 为 一 个 信息 化 的 现代 社会 。 人 类 不 但 具备 了 数据 信息 的 全 面 感知 ,快速 传输 、 高 效 计 
算 ,海量 存储 等 方面 的 超 强 能 力 , 而 且 信 息 化 也 已 经 深刻 而 广泛 地 影响 到 社会 的 各 行业 领 
域 和 生产 生活 的 方方面面 。 在 数据 信息 的 全 面 感知 获取 方面 ,从 深 空 到 深海 和 深 地 的 探 
测 感知 ,从 企业 集团 到 生产 设备 的 监控 感知 ,从 智慧 城市 到 个 人 信息 的 监测 感知 …… 人 类 
已 经 从 各 个 角度 、 多 个 层次 进行 了 数据 信息 的 丰富 感知 采集 。 无 所 不 在 的 物 联网 和 传 感 
器 ,使 得 数据 信息 呈 “ 爆 炸 式 增长 ”"。 在 信息 快速 传输 方面 ,当今 的 骨干 网 络 带宽 进入 了 
TB(PB)/ 秒 级 , 接 入 网 带宽 进入 了 MB(GB)/ 秒 级 ,信息 传输 的 便捷 程度 前 所 未 有 。 在 高 
效 计算 能 力 方面 , 单 台 高 性 能 计算 机 系统 的 浮 点 运算 速度 已 超过 亿 亿 次 / 秒 ,便携 式 计算 
机 的 运算 处 理 速度 也 在 日 新 月 异地 发 展 变化 。 在 数据 信息 的 海量 存储 方面 ,无 论 是 便携 
式 存储 器 ,还 是 云 存 储 系统 ,数据 存储 的 代价 不 断 迅 速 下降 ,容量 快速 上 升 。 随 着 计算 机 
和 信息 网 络 技术 的 飞速 发 展 ,以 及 信息 化 技术 与 其 他 行业 领域 技术 的 交叉 融合 ,形成 了 
“互联 网 十 ”新 业态 ,数据 成 为 了 未 来 社会 发 展 的 新 资源 。 如 何 通过 大 数据 挖掘 ,有 效 实现 
数据 这 种 新 资源 的 社会 价值 ,成 为 社会 各 行业 领域 关注 的 一 个 核心 问题 ,甚至 诞生 了 “ 数 
据 科学 与 工程 ”这样 一 个 新 兴 的 学 科 和 专业 。 大 数据 的 挖掘 与 分 析 应 用 技术 ,最 近 被 列 人 
到 《国务 院 关 于 积极 推进 “互联 网 十 ”行动 的 指导 意见 多 促进 大 数据 发 展 行动 岗 要》 和 4“ 十 
三 五 ”国家 战略 性 新 兴 产 业 发 展 规划 ) 等 多 个 国家 战略 规划 的 文件 之 中 ,国务 院 2017 年 7 
月 发 布 的 (新 一 代 人 工 智能 发 展 规划 ) 也 明确 将 大 数据 智能 列 为 一 个 重要 发 展 方向 。 培 养 
学 生 在 大 数据 工程 应 用 方面 的 能 力 ,提升 学 生 对 未 来 社会 信息 化 和 智能 化 建设 的 适应 能 
力 , 成 为 社会 对 人 才 培 养 的 一 大 紧迫 需求 。 

重庆 邮电 大 学 大 数据 课程 组 在 大 数据 工程 技术 研究 与 教学 实践 中 ,经 过 几 年 的 探索 ， 
积累 了 一 些 经 验 。 课 程 组 的 几 位 老师 合力 编写 了 这 本 《大 数据 挖掘 及 应 用 ) 教 材 ,希望 能 
够 帮助 对 大 数据 挖掘 技术 感 兴趣 的 读者 了 解 学 习 相 关 的 理论 知识 和 技术 方法 , 助 推 大 数 
据 工程 技术 人 才 的 培养 。 在 教材 的 教学 内 容 设 计 和 知识 结构 组 织 中 ,紧密 围绕 各 行业 领 
域 推进 “互联 网 十 ”模式 的 信息 化 建设 对 大 数据 工程 技术 人 才 的 需求 ,循序 渐进 地 安排 了 
从 数据 的 准备 与 预 处 理 , 到 数据 的 可 视 化 与 关联 分 析 , 再 到 数据 的 分 类 、 聚 类 和 深度 学 习 
等 大 数据 挖掘 处 理 的 主要 基础 理论 知识 和 模型 技术 方法 ,以 及 从 R 语言 到 Hadoop 系统 
和 并 行 化 计算 等 大 数据 挖掘 处 理 的 主流 工具 与 平台 技术 ,特别 是 通过 丰富 的 教学 案例 实 
现 了 理论 学 习 与 实践 提高 的 有 机 融合 。 因 此 ,本 书 适合 各 高 校 信息 类 和 管理 类 本 科 专 业 
的 课程 教学 ,对 其 他 理工 科 专 业 学 生 以 及 从 事 信 息 化 和 智能 化 建设 的 各 行业 领域 工程 技 
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术 人 员 也 具有 重要 的 参考 价值 。 

为 了 便于 本 书 的 教学 组 织 ,课程 组 准备 了 配套 的 教学 课件 和 电子 资源 等 辅助 教学 资 
料 。 课 程 组 建设 的 “大 数据 分 析 与 处 理 ” 在 线 开放 课程 (课程 网 站 :http://www. cqooc. 
com( 面 向 重庆 市 高 校 学 生 ) ,http://cqupt. gaoxiaobang. com( 面 向 全 国 读者 )), 可 以 作为 
本 书 的 网 络 在 线 学 习 参 考 资源 , 供 自学 的 读者 参考 学 习 , 采 用 本 书 教 学 的 教师 也 可 将 其 作 
为 参考 资料 。 

在 本 书 即将 重印 之 际 ,要 特别 感谢 参与 编写 和 相关 教学 资源 建设 的 各 位 老师 ! 由 于 
你 们 的 不 辞 辛劳 与 通力 合作 , 才 有 今天 教材 的 完稿 出 版 ,并 得 到 读者 的 厚爱 。 本 教材 的 编 
写 得 益 于 重庆 邮电 大 学 大 数据 课程 组 全 体 老 师 . 计 算 机 软件 教学 部 国家 级 教学 团队 和 计 
算 智能 重庆 市 重点 实验 室 的 众多 老师 和 学 生 的 支持 ,他 们 在 大 数据 方面 长 期 的 教学 和 科 
研 积累 为 教材 的 撰写 黄 定 了 坚实 的 基础 。 感 谢 清华 大 学 出 版 社 对 本 书 策划 和 出 版 的 大 力 
支持 。 在 此 ,对 大 家 的 大 力 支持 .辛勤 工作 与 热情 奉献 ,表示 诚挚 的 谢意 ! 

课程 组 还 将 不 断 总 结 科研 成 果 和 教学 经 验 ,吸取 广大 师 生 和 读者 的 意见 ,进一步 将 本 
书 锤炼 成 为 一 本 精品 教材 。 
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今天 ,“ 大 数据 "已 经 成 为 一 个 非常 时 尚 的 概念 ,得 到 广泛 应 用 ,不 仅 受 到 IT 从 业 人 
员 的 重视 ,而 且 影 响 到 了 自然 科学 、 社 会 科学 、 人 文科 学 等 领域 的 广大 从 业者 ,并 对 社会 经 
济 的 各 行业 产生 了 深远 的 影响 。 大 数据 已 经 不 再 是 对 大 量 数据 的 处 理 问题 了 ,最 重要 的 
是 对 大 数据 进行 分 析 , 只 有 通过 分 析 才能 从 数据 中 获取 深入 的 、 智 能 的 \ 有 价值 的 信息 与 
知识 。 不 断 增长 的 大 数据 呈现 出 数据 量 大 、 种 类 繁多 、 增 速 很 快 以 及 隐藏 价值 大 的 特点 ， 
因此 好 的 分 析 技 术 和 方法 在 大 数据 应 用 领域 显得 尤为 重要 。 本 书 围绕 大 数据 背景 下 的 数 
据 挖 掘 和 应 用 问题 ,从 大 数据 挖掘 的 基本 概念 人 手 , 由 浅 入 深 、 循 序 渐进 地 介绍 了 大 数据 
挖掘 分 析 过 程 中 的 数据 准备 和 预 处 理 技术 .数据 可 视 化 技术 数据 挖掘 的 基本 方法 .大 数 
据 分 析 计 算 的 常用 平台 架构 编程 方法 、 并 行 化 程序 设计 技术 以 及 常用 的 SPSS 统计 分 析 
工具 流行 的 统计 分 析 R 语言 等 内 容 。 本 书 不 仅 面 向 在 校 大 学 生 , 而 且 面 向 社会 广大 的 
IT 从 业 人 员 , 有 助 于 读者 了 解 大 数据 挖掘 所 涉及 的 基本 技术 和 方法 。 作 者 力图 使 读者 通 
过 学 习 , 提 高 数据 分 析 的 实践 动手 能 力 ,拓展 在 数据 分 析 领 域 的 视野 。 

参与 编写 本 书 的 所 有 作者 均 来 自重 庆 邮电 大 学 计算 智能 重庆 市 重点 实验 室 , 都 具有 
多 年 从 事 数据 挖掘 、 机 器 学 习 等 人 工 智 能 领域 的 科研 和 教学 实践 经 验 。 本 书 在 结构 设计 
与 内 容 安排 上 既 体 现 了 所 有 作者 的 群体 智慧 ,也 体现 了 本 领域 的 近期 发 展 和 前 沿 成 果 。 

目前 ,大 数据 的 知识 挖掘 及 应 用 方法 逐渐 成 为 各 高 校 信息 类 和 管理 类 本 科 专 业 的 必 
修 课程 内 容 , 同 时 ,作为 面向 各 专业 的 通 识 课 也 广 受 欢迎 。 本 书 作为 立足 于 本 科教 学 的 教 
材 , 具 有 如 下 特色 : 

(1) 在 逻辑 安排 上 循序 渐进 ,由 浅 入 深 ,便于 读者 系统 学 习 。 

(2) 内 容 丰 富 , 信 息 量 大 ,融入 了 大 量 本 领域 的 新 知识 和 新 方法 。 

(3) 作为 教材 ,在 每 一 个 环节 都 配 有 与 理论 学 习 内 容 相 结合 的 案例 分 析 , 不 仅 有 学 生 
参赛 作品 展示 ,还 有 采用 Python A R 语言 编写 的 应 用 实例 ,尤其 是 在 第 10 章 还 给 出 了 
完整 的 大 数据 分 析 应 用 实际 案例 ,使 读者 能 够 在 大 数据 平台 上 实际 感受 一 个 完整 的 数据 
分 析 过 程 。 

(4) 图 文 并 茂 ,形式 生动 ,可 读 性 强 。 

全 书 内 容 分 为 3 部 分 , 共 11 章 。 第 1 部 分 是 数据 挖掘 及 应 用 导论 ,由 第 1 一 3 章 组 成 。 

第 1 章 主要 是 关于 大 数据 挖掘 及 应 用 的 概论 。 本 章 讨论 了 大 数据 挖掘 及 应 用 普及 的 
发 展 历程 及 重要 性 ,探讨 了 目前 所 面临 的 挑战 和 问题 ,介绍 了 数据 挖掘 的 基本 概念 、 功 能 
和 方法 ,进而 对 大 数据 挖掘 的 计算 框架 和 处 理 流程 进行 了 分 析 总 结 。 在 本 章 教学 中 ,可 以 
紧 跟 最 新 事件 ,以 生动 的 实例 ,动画 、 视 频 等 形式 激发 学 生 兴趣 。 建 议 2 学 时 。 
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第 2 章 的 主题 是 数据 认 知 和 数据 准备 。 本 章 首 先 从 数据 分 析 的 定义 和 流程 人 手 ,给 
出 了 评价 高 质量 数据 的 指标 。 然 后 对 数据 由 什么 类 型 的 属性 或 字段 组 成 ,每 个 属性 具有 
何 种 类 型 的 数据 值 ,是 离散 属性 还 是 连续 属性 进行 了 描述 ,进而 讨论 了 数据 的 中 心 趋势 和 
离散 趋势 度量 指标 ,以 及 数据 相似 性 和 相关 性 的 计算 方法 ,并 着 重 探讨 了 数据 预 处 理 中 数 
据 清理 数据 集 成 ,数据 归 约 和 数据 变换 的 技术 。 最 后 简 述 了 目前 常用 的 数据 统计 分 析 和 
预 处 理工 具 , 并 用 一 个 案例 对 SPSS 工具 进行 了 介绍 。 在 本 章 教学 中 ,可 以 以 一 种 数据 统 
计 分 析 工 具 为 背景 ,进行 形象 具体 的 介绍 。 建 议 6 学 时 。 

第 3 章 主要 介绍 数据 可 视 化 技术 。 本 章 从 可 视 化 技术 的 应 用 开始 ,介绍 了 最 常用 的 
高 维 数据 可 视 化 方法 和 网 络 数 据 可 视 化 方法 ,最 后 通过 两 个 竞赛 案例 对 可 视 化 技术 的 实 
际 应 用 作 了 详细 的 讲解 。 可 视 化 技术 能 够 以 图 形 的 表现 方式 帮助 人 们 识别 隐藏 在 杂乱 数 
据 集中 的 关系 、 趋 势 和 偏差 等 有 价值 信息 。 在 本 章 教学 中 ,可 以 运用 可 视 化 软件 进行 案例 
演示 ,激发 学 生 的 学 习 兴 趣 。 建 议 6 学 时 。 

第 2 部 分 是 数据 挖掘 及 应 用 的 方法 论 ,由 第 4 一 8 章 组 成 。 

第 4 章 包 含 数据 关联 分 析 的 基本 知识 和 主要 经 典 算法 。 数 据 关联 分 析 是 数据 挖掘 中 
应 用 最 早 和 最 成 熟 的 一 类 方法 。 本 章 从 一 个 问题 案例 出 发 ,先后 介绍 了 关联 规则 分 析 的 
基本 概念 以 及 3 种 典型 的 频繁 项 集 挖掘 算法 ,并 对 关联 规则 的 有 效 性 进行 了 探讨 ,将 学 习 
内 容 扩 展 到 频繁 项 集 挖掘 的 一 些 高 级 方法 ,例如 多 维 关联 规则 挖掘 和 多 层 关联 规则 挖掘， 
最 后 使 用 Python 语言 给 出 了 经 典 Apriori 算法 的 一 个 应 用 案例 。 在 本 章 教学 中 ,可 以 结 
合 数据 挖掘 领域 著名 的 开源 软件 weka 进行 演示 教学 ,让 学 生 形象 地 体会 经 典 关 联 分 析 
算法 产生 的 效果 和 使 用 全 过 程 。 建 议 6 学 时 。 

第 5 章 包含 数 据 分 类 分 析 的 基本 知识 以 及 主要 经 典 算法 。 本 章 从 介绍 分 类 的 基本 概 
BAF ,讲解 了 数据 分 类 分 析 的 基本 方法 ,包括 最 常用 的 决策 树 分 类 器 ,基于 概率 统计 思 
想 的 贝 叶 斯 分 类 算法 ,具有 统计 学 习 理论 坚实 基础 的 支持 向 量 机 算法 ,以 及 通过 构建 一 组 
基于 学 习 器 进行 集成 学 习 的 Adaboost 算法 ,最 后 使 用 Python 语言 给 出 了 一 个 具体 案 
例 , 使 读者 能 够 熟悉 数据 分 类 分 析 的 全 过 程 。 在 本 章 教学 中 ,可 以 结合 数据 挖掘 领域 著名 
的 开源 软件 weka 进行 演示 教学 ,让 学 生 形 象 地 体会 经 典 分 类 算法 产生 的 效果 和 使 用 全 
过 程 。 建 议 6 学 时 。 

第 6 章 包含 数 据 聚 类 分 析 的 基本 知识 和 主要 经 典 算法 。 本 章 首先 引入 聚 类 的 基本 概 
念 ,进而 讲解 各 种 聚 类 算法 ,包括 基于 划分 的 k-means 算法 和 于 中 心 点 算法 ,基于 层次 的 
算法 ,基于 密度 的 DBSCAN 算法 以 及 基于 概率 模型 的 期 望 最 大 化 算法 ,并 简要 讨论 了 评 
估 聚 类 方法 的 准则 ,最 后 使 用 Python 语言 给 出 一 个 案例 ,帮助 读者 更 好 地 理解 聚 类 分 析 
技术 。 在 本 章 教学 中 ,可 以 结合 数据 挖掘 领域 著名 的 开源 软件 weka 进行 演示 教学 ,让 学 
生 形 象 地 体会 经 典 聚 类 算法 产生 的 效果 和 使 用 全 过 程 。 建 议 4 一 5 学 时 。 

第 7 章 探讨 人 工 智 能 研究 中 的 一 个 重要 的 新 领域 一 一 深度 学 习 。 本 章 首 先 介绍 深度 
学 习 的 发 展 和 基本 概念 ,然后 具体 分 析 了 深度 学 习 的 几 种 经 典 模型 与 算法 ,包括 最 常用 的 
深信 网. 深 玻 尔 兹 曼 机 、 栈 式 自动 编码 器 和 卷 积 神经 网 络 , 最 后 介绍 了 几 种 深度 学 习 开源 
模型 并 给 出 了 一 个 具体 案例 ,帮助 读者 了 解 深 度 学 习 在 实际 应 用 中 的 完整 工作 过 程 。 在 
本 章 教学 中 ,可 以 结合 书 中 介绍 的 某 一 种 深度 学 习 开 源 框 架 , 采 用 相应 的 数据 集 进 行 演 示 


教学 ,让 学 生 形 象 地 体会 深度 学 习 算法 产生 的 效果 和 使 用 全 过 程 。 建 议 6 学 时 。 

第 8 章 介绍 目前 流行 的 统计 分 析 R 语言 。 本 章 首先 从 R 语言 的 下 载 安装 开始 ,介绍 
R 语言 的 基本 技术 ,包括 运行 方法 、 常 用 操作 、 包 的 使 用 、 常 用 数据 结构 、 编 程 结构 以 及 与 
数据 挖掘 和 图 形 绘制 相关 的 包 , 最 后 使 用 R 语言 给 出 了 一 个 从 数据 预 处 理 到 数据 分 析 的 
具体 案例 ,使 读者 能 够 熟悉 使 用 R 语言 做 数据 分 析 的 全 过 程 。 在 本 章 教学 中 ,可 以 通过 
类 似 实 训 课程 或 者 视频 录像 的 形式 ,让 学 生 形 象 地 体会 并 掌握 R 语言 的 操作 方法 和 编程 
基础 。 建 议 4 学 时 。 

第 3 部 分 属于 数据 挖掘 及 应 用 的 进 阶 部 分 ,由 第 9 一 11 章 组 成 。 

第 9 章 的 主题 是 大 数据 分 布 式 存储 与 并 行 计算 的 平台 Apache Hadoop 及 其 编程 框 
架 。 本 章 从 介绍 Hadoop 集群 的 基本 概念 开始 ,讲解 了 HDFS 基本 操作 、MapReduce 并 
行 计算 基础 、 基 于 Storm 的 分 布 式 实时 计算 以 及 基于 Spark Streaming 的 分 布 式 实时 计 
算 等 内 容 。 在 各 节 中 都 给 出 了 若干 案例 ,以 供 读者 在 实际 编程 过 程 中 进行 参考 。 在 本 章 
教学 中 ,可 以 要 求学 生 紧 扣 教 材 ,完成 各 节 中 的 案例 ,增强 身 临 其 境 的 体验 。 建 议 4 一 5 
学 时 。 

第 10 章 介绍 大 数据 分 析 处 理 算法 的 并 行 化 基础 理论 和 技术 。 本 章 介绍 了 并 行 计算 
算法 的 基本 概念 ,以 MR-KMeans 算法 为 典型 案例 分 析 了 其 在 MapReduce 计算 框架 下 的 
并 行 化 ,并 基于 Mahout 和 MLlib 对 该 算法 进行 了 并 行 化 实现 ,最 后 给 出 了 3 个 完整 的 
MapReduce 平台 下 数据 分 析 的 具体 案例 ,使 读者 能 够 了 解 在 大 数据 平台 上 进行 数据 分 析 
的 全 过 程 。 在 本 章 教学 中 ,可 以 通过 专门 的 视频 演示 ,让 学 生理 解 并 行 化 编程 的 复杂 实际 
操作 。 建 议 4 一 5 学 时 。 

第 11 章 主要 关注 大 数据 挖掘 及 应 用 的 发 展 趋势 和 研究 前 沿 。 本 章 首先 从 大 数据 时 
代 发 展 的 回顾 与 展望 开始 ,介绍 了 大 数据 发 展 过 程 中 出 现 的 典型 新 数据 类 型 以 及 新 挖掘 
分 析 方 法 ,并 在 最 后 对 大 数据 的 发 展 进行 了 展望 。 建 议 2 学 时 。 

本 书 各 章 提 供 的 教学 建议 和 学 时 安排 仅 供 教师 参考 。 教 师 可 以 根据 教学 过 程 中 的 
实际 安排 删 减 内 容 和 调整 学 时 。 本 书 还 提供 了 一 些 丰富 的 教学 资源 供 教 师 教 学 参考 
和 学 生 学 习 时 使 用 。 以 本 书 各 章 内 容 为 基础 的 在 线 微 视频 开放 课程 已 经 在 cqupt. 
gaoxiaobang. com 网 站 上 线 ,教师 可 以 通过 课 前 推送 的 方式 ,指导 学 生 观 看 相关 视频 进 
行 课 前 预习 ,其 他 读者 可 以 通过 该 视频 课程 巩固 和 完善 对 各 个 知识 点 的 理解 。 除 此 之 
外 ,我 们 还 提供 了 一 些 其 他 的 附加 材料 ,包括 每 章 的 幻灯 片 、 每 章 涉 及 的 案例 的 软件 程 
序 . 课 后 习题 解答 以 及 一 些 案例 的 演示 视频 ,以 上 这 些 资料 在 清华 大 学 出 版 社 的 网 站 
上 向 教师 提供 。 

本 书 的 第 1、11 章 由 王国 和 负 和 张 旭 编 写 ,第 2、4 章 由 刘 群 编写 ,第 3 章 由 秦 红星 编写 ， 
第 5.6 章 由 于 洪 编写 ,第 7 章 由 曾 宪 华 编写 ,第 8 章 由 吴 思 远 编写 ,第 9 章 由 李 智 星 编写 ， 
第 10 章 由 张 旭 编 写 。 全 书架 构 由 王国 筷 负 责 设计 ,王国 让 和 刘 群 负责 统 稿 。 

本 书 的 编写 得 到 了 重庆 邮电 大 学 计算 智能 重庆 市 重点 实验 室 和 计算 机 科学 与 技术 学 
院 教 师 们 的 大 力 支持 和 帮助 ,也 得 到 了 许多 研究 生 的 支持 ,他 们 帮助 收集 并 整理 了 大 量 资 
料 。 没 有 他 们 的 帮助 ,本 书 很 难 在 约定 时 间 内 完成 。 在 此 ,感谢 他 们 对 本 书 的 写作 所 做 出 
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大 数据 挖掘 及 应 用 概论 


数据 挖掘 (data mining) 是 数据 库 知 识 发 现 (Knowledge-Discovery in Databases. 
KDD) 中 的 一 个 步骤 。 其 一 般 是 指 从 大 量 的 数据 中 通过 算法 搜索 隐藏 于 其 中 的 信息 的 过 
程 。 随 着 信息 科技 的 进步 和 网 络 的 发 达 、 计 算 机 运算 能 力 的 增强 以 及 数据 存储 技术 的 不 
断 改进 ,人 类 社会 正 迈 向 信息 时 代 , 数 据 的 爆炸 式 增长 .广泛 可 用 和 巨大 体 量 使 得 我 们 的 
时 代 成 为 真正 的 数据 时 代 , 迫 切 需要 功能 强大 和 通用 的 工具 ,以 便 从 大 数据 中 发 现 有 价值 
的 信息 ,并 将 这 些 数据 转换 成 有 用 的 信息 和 知识 ,所 获取 的 信息 和 知识 可 以 广泛 用 于 各 种 
应 用 ,包括 商务 管理 ,生产 控制 .市场 分 析 、 工 程 设计 和 科学 探索 等 。 数 据 挖掘 方法 利用 了 
来 自如 下 一 些 领域 的 技术 思想 ,如 来 自 统计 学 的 抽样 ,估计 和 假设 检验 ,来 自 人 工 智 能 、 模 
式 识别 和 机 器 学 习 的 搜索 算法 、 建 模 技 术 和 学 习 理论 ,以 及 来 自 包括 最 优化 、 进 化 计算 、 信 
息 论 , 信 号 处 理 , 可 视 化 和 信息 检索 等 的 重要 支撑 。 随 着 数据 量 越 来 越 大 , 源 于 高 性 能 分 
布 式 并 行 计算 和 存储 的 技术 在 大 数据 挖掘 和 应 用 中 显得 越 来 越 重 要 。 

本 章 是 一 个 概论 ,试图 较 完 整地 展现 在 大 数据 挖掘 和 分 析 中 对 各 种 各 样 的 应 用 进行 
有 效 数据 模式 发 现 的 方法 ,特别 是 那些 开发 有 效 的 、 可 扩展 的 大 数据 分 析 工 具 和 分 布 式 并 
行 计算 平台 的 卓越 技术 。 本 章 组 织 结构 如 下 : 首先 介绍 大 数据 智能 分 析 人 处理 的 普及 和 应 
用 的 概貌 (1. 1 节 ), 接 下 来 探讨 大 数据 的 发 展 及 挑战 问题 (1. 2 节 ) ,概述 数据 挖掘 (1. 3 
节 ) ,介绍 大 数据 分 析 处 理 和 挖掘 的 框架 (1. 4 节 ) ,最 后 对 大 数据 时 代 “ 互 联网 十 ”的 未 来 
发 展 进行 展望 分 析 ,提出 智能 互联 的 概念 (1.5 节 )。 


11 大 数据 智能 分 析 处 理 的 普及 和 应 用 


本 节 给 出 云 计 算 及 大 数据 智能 分 析 处 理 的 基本 概念 及 其 应 用 术语 ,为 读者 研究 云 计 
算 和 大 数据 建立 基础 。1.1.1 节 和 1.1.2 节 分 别 介绍 云 计算 和 大 数据 的 基本 概念 ,1.1.3 
节 介 绍 云 计 算 和 大 数据 的 智能 应 用 。 


1.1.1 云 计算 


2015 年 1 月 ,国务 院 发 布 了 《关于 促进 云 计算 创新 发 展 培育 信息 产业 新 业态 的 意 
见 》, 在 这 个 文件 中 为 云 计算 和 大 数据 分 析 等 关键 技术 领域 描绘 了 未 来 的 发 展 蓝图 。 云 计 
算是 人 机 交互 的 互联 计算 ,大 数据 将 人 类 社会 带 和 信 了 物理 空间 、 社 会 空间 与 数据 空间 共生 
的 三 元 空间 世界 。“ 互 联网 十 ” 正 向 智能 的 深度 互联 发 展 ,大 量 的 数据 资源 有 待 利用 和 价 
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HRM. LinkedIn F 2014 年 发 布 了 最 新 的 调研 分 析 , 称 最 大 的 求职 法 宝 是 统计 分 析 与 
数据 挖掘 技能 。 美 国 招聘 网 站 Glassdoor 也 有 一 个 报告 , 称 程序 员 的 平均 年 薪 只 有 6.5 
万 美元 ,数据 科学 家 却 高 达 11. 9 万 美元 。 希 望 读 者 能 够 通过 对 本 书 的 学 习 , 拓 宽 职业 道 
路 ,开拓 研究 视野 ,提升 年 薪 ,增强 发 展 能 力 。 

首先 来 看 看 人 们 对 大 数据 、 云 计算 的 关注 度 变 化 (数据 来 自 百度 搜索 指数 了 )。 该 数 
据 展示 了 互联 网 用 户 对 关键 词 搜索 的 关注 程度 及 持续 变化 情况 (算法 说 明 : 以 网 民 在 百 
度 的 搜索 量 为 数据 基础 ,以 关键 词 为 统计 对 象 , 科 学 分 析 并 计算 出 各 个 关键 词 在 百度 网 页 
搜索 中 搜索 频次 的 加 权 )。 根 据 数据 来 源 的 不 同 ,搜索 指数 分 为 PC 搜索 指数 和 移动 搜索 
指数 。 本 章 摘录 的 是 2011—2016 年 的 整体 趋势 ,如 图 1-1 所 示 。 可 以 看 出 ,“ 云 计算 ” 自 
2008 年 引起 关注 ,之 后 的 搜索 量 迅猛 增长 并 在 2011 年 底 呈 现 较 高 的 关注 热度 , 且 一 直 维 持 
在 一 个 较 高 的 搜索 水 平 。2016 年 底 , 随 着 全 球 首 款 亿 级 并 发 云 服务 器 系统 在 我 国 量 产 ,全 
球 云 计 算 基础 硬件 设施 进入 一 个 全 新 的 时 代 , 通 用 服务 器 并 发 从 “万 ”级 步 和 人 * 亿 ”级 ,人们 
对 云 计算 的 关注 度 再 次 出 现 了 井喷 式 增长 。“ 大 数据 ”这 个 词 虽然 从 2012 年 才 受 到 人 们 
的 关注 ,但 是 在 很 短 的 时 间 内 其 搜索 量 就 超越 了 “ 云 计算 ”, 之 后 一 直 呈 现 较 高 的 热度 。 


2011 一 2017 年 云 计算 与 大 数据 搜索 整体 趋势 (百度 指数 ) 
一 大 数据 一 到 计算 | | 




















周平 均 搜索 指数 

















2011 年 2012 年 2013 年 2014 年 2015 年 2016 年 。 ”2017 年 
图 1-1 “ 云 计算 "和 “大 数据 ”的 百度 搜索 指数 


什么 是 云 计算 呢 ? 先 看 一 个 简单 的 例子 。 我 们 每 天 都 要 用 电 , 但 不 是 每 家 自 备 发 电 
机 , 它 由 电厂 集中 提供 ;我 们 每 天 都 要 用 自来水 ,但 不 是 每 家 都 有 井 , 它 由 自来水 厂 集中 提 
供 ; 开 车 需要 加 油 , 但 不 是 每 家 都 有 加 油 站 ;做 饭 需 要 肉 蛋 禽 菜 , 但 不 是 每 家 都 会 养 猪 种 
菜 。 我 们 从 国家 、 社 会 或 者 第 三 方 团体 采购 或 享受 这 些 服务 ,这 种 模式 极 大 地 节约 了 资 
WR ,方便 了 人 们 的 生活 。 面 对 众多 独立 运行 的 计算 机 ,可 不 可 以 像 使 用 水 和 电 一 样 统一 使 
用 计算 机 资源 ,而 不 再 单独 建设 .购买 和 使 用 呢 ? 这 些 想法 最 终 导致 了 云 计算 的 产生 。 
2006 年 谷歌 推出 了 “Google 101 计划 ”, 并 正式 提出 * 云 ”的 概念 和 理论 。 随 后 亚马逊 、 微 
SK BTS AEE SEEK IBM 等 公司 都 宣布 了 自己 的 “ 云 计 划 ”。 云 安全 ` 云 存储 、 内 部 云 、 
外 部 云 .公共 云 .私有 云 …… 一 堆 让 人 眼花 练 乱 的 概念 不 断 冲击 着 人 们 的 眼球 。 


© 百度 指数 (https://index. baidu. com/) :截至 2017 年 11 月 22 日 “ 云 计算 "和 “大 数据 ”搜索 指数 。 
OQ PRB. 中 国 首 款 亿 级 并 发 云 服务 器 系统 正式 量 产 . 2016-12-30. http: //www. most. gov. cn/ kjbgz/201612/ 
t20161230_130074. htm. 
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那么 ,如 果 要 给 云 计算 一 个 严格 的 定义 ,又 应 该 是 什么 呢 ? 
。 政界 定义 : 云 计算 是 推动 信息 技术 能 力 实 现 按 需 供给 .促进 信息 技术 和 数据 资源 
充分 利用 的 全 新 业态 ,是 信息 化 发 展 的 重大 变革 和 必然 趋势 。(《 国 务 院 关 于 促进 
云 计 算 创 新 发 展 培育 信息 产业 新 业态 的 意见 》 国 发 [2015]5 号 9) 
。 学 界定 义 : 云 计算 是 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 模式 ,通常 涉及 
通过 互联 网 来 提供 动态 易 扩展 且 经 常 是 虚拟 化 的 资源 。( 百 度 百 科 @) 
。 本 书 观点 : 云 计算 是 人 机 交互 的 互联 计算 系统 。 
云 计算 不 是 简单 地 把 一 大 堆 计 算 机 通过 互联 网 连接 起 来 。 它 彻底 改变 了 人 类 的 生活 
方式 ,工作 方式 和 休闲 方式 ,改变 了 社会 的 政治 经 济 、 教 育 、 商 务 、 健 康 与 娱乐 机 制 , 已 经 
成 为 推动 技术 发 明和 社会 变革 的 最 强大 的 发 动机 。 


1.1.2 大 数据 


近年 来 , 随 着 计算 技术 ,数据 采集 数据 存储 ,数据 传输 、 网 络 通信 等 信息 技术 以 及 脑 
科学 . 认 知 科学 等 相关 学 科 领 域 科技 的 飞速 发 展 , 越 来 越 多 的 联网 传感器 被 嵌入 各 种 设 
备 , 它 们 产生 着 数 以 亿 计 的 大 数据 ,如 滚滚 洪流 测 涌 而 至 。 如 何 有 效 地 将 其 接收 处 理 、 存 
储 乃 至 利用 ,成 为 摆 在 我 们 面前 的 一 个 巨大 挑战 。 下 面 看 一 个 实际 的 大 数据 案例 。 

如 图 1-2 所 示 , 用 户 在 享受 云 计算 、 大 数据 带 来 的 生活 便利 的 同时 ,也 在 贡献 着 大 量 
的 数据 ,这 些 数 据 以 文本 、 图 像 、 视 频 等 各 种 结构 化 、 非 结构 化 或 半 结 构 化 的 形态 存在 。 
2016 年 12 月 ,中 国信 息 通 信和 研究 院 发 布 的 (大 数据 白皮书 (2016 年 )) 指 出 “大 数据 是 新 资 
源 、 新 技术 和 新 理念 的 混合 体 "5 。 

从 资源 视角 看 ,大 数据 是 新 资源 ,体现 了 一 种 全 新 的 资源 观 。1990 年 以 来 ,计算 存储 
和 传输 数据 的 能 力 在 以 指数 速度 增长 ,每 吉 字 节 (GB) 存 储 器 的 价格 每 年 下 降 40% 
2006 年 以 来 ,以 Hadoop 为 代表 的 分 布 式 存储 和 计算 技术 迅猛 发 展 , 极 大 地 提升 了 互联 
网 企业 数据 管理 能 力 。 互 联网 企业 对 “数据 废气 ”data exhaust) 的 挖掘 利用 大 获 成 功 , 引 
发 了 全 社会 开始 重新 审视 “数据 ”的 价值 .开始 把 数据 当 作 一 种 独特 的 战略 资源 对 待 。 

从 技术 视角 看 ,大 数据 代表 了 新 一 代数 据 管理 与 分 析 技 术 。 传 统 的 数据 管理 与 分 析 
技术 以 结构 化 数据 为 管理 对 象 ,在 小 数据 集 上 进行 分 析 , 以 集中 式 架 构 为 主 ,成 本 高 昂 。 
与 “贵族 化 ”的 数据 分 析 技 术 相 比 , 源 于 互联 网 的 、 面 向 多 源 异 构 数 据 的 、 在 超大 规模 数据 
E (PB 量 级 ) 上 进行 分 析 的 、 以 分 布 式 架构 为 主 的 新 一 代数 据 管理 技术 与 开源 软件 潮流 相 
互 琶 加 ,在 大 幅 提高 处 理 效率 的 同时 ,成 百倍 地 降低 了 数据 应 用 成 本 。 

从 理念 视角 看 ,大 数据 打开 了 一 种 全 新 的 思维 角度 。 大 数据 的 应 用 赋予 了 “实事 求 
是 ?新 的 内 涵 。 其 一 是 “数据 驱动 ", 即 经 营 管理 决策 可 以 自 下 而 上 地 由 数据 来 驱动 ,甚至 
像 量 化 股票 交易 .实时 竞价 广告 等 场景 中 那样 ,可 以 由 机 器 根据 数据 直接 决策 ;其 二 是 " 数 
据 闭环 ”, 观 察 互联 网 行业 大 数据 案例 ,它们 往往 能 够 构造 起 包括 数据 采集 、 建 模 分 析 、 效 


@ 国务院. 国务院 关于 促进 云 计算 创新 发 展 培育 信息 产业 新 业态 的 意见 . 2015-01-30. http: //www. gov. cn/ 
zhengce/content/2015-01/30/content_9440. htm. 
© ”百度 百科 . 云 计算 . http: //baike. baidu. com/view/1316082. htm. 
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果 评 估 、 反 馈 修正 等 环节 在 内 的 完整 的 “数据 闭环 ”, 从 而 能 够 不 断 地 自我 升级 ,螺旋 上 升 。 
目前 很 多 “大 数据 应 用 ”, 要 么 数据 量 不 够 大 ,要 么 并 非 必须 使 用 新 一 代 技 术 , 但 体现 了 数 
据 驱 动 和 数据 闭环 的 思维 ,改进 了 生产 管理 效率 ,这 是 大 数据 思维 理念 应 用 的 体现 。 
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图 1-2 每 分 钟 产生 的 “大 ”数据 (摘自 Domo: Data Never Sleeps 4. 0) 


1.1.3 云 计算 与 大 数据 的 智能 应 用 


2016 年 初 ,谷歌 AlphaGo( 阿 发 围棋 , 阿 发 狗 ) 挑 战 韩国 的 围棋 高 手 李 世 石 九段 ,将 全 
世界 人 的 目光 都 吸引 到 人 工 智 能 、 大 数据 智能 处 理 上 ,这 一 挑战 过 程 更 是 刺激 了 无 数 围棋 
和 人 工 智 能 爱好 者 的 神经 。 围 棋 中 各 种 变数 的 数量 ,甚至 超过 了 宇宙 中 原子 的 数量 。 作 
为 机 器 ,在 与 人 对 弈 时 ,其 显著 的 优势 在 于 能 够 记录 收集 到 的 全 部 比赛 历史 并 进行 复 盘 演 
练 。 然 而 ,人 是 灵活 的 、 多 变 的 ,即使 同一 个 人 在 相同 的 开局 下 也 可 能 演变 出 不 同 的 棋 路 。 
这 对 棋谱 数据 的 智能 处 理 提出 了 更 高 的 要 求 , 是 人 工 智能 和 大 数据 智能 处 理 技术 的 综合 
应 用 体现 。 当 比赛 最 终 尘 埃 落 定 , 各 方面 人 士 和 团体 机 构 纷纷 热 议 人 工 智能 和 大 数据 智 
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对 的 。 也 因此 在 世界 范围 内 掀起 了 一 轮 新 的 人 工 智能 ,大 数据 智能 处 理 热潮 。2017 年 10 
月 ,DeepMind 团队 在 (自然) 杂志 上 发 表 的 论文 AlphaGo Zero: Mastering the game of 
Go without human knowledge(《 无 需 人 类 知识 的 围棋 大 师 》) 推 出 了 人 工 智 能 围棋 程序 最 
新 版 本 更 强大 的 “学 习 ” 能 力 。 

回顾 一 下 计算 机 的 发 展 历程 ,从 1936 年 图 灵 发 表 第 一 篇 关于 可 计算 性 的 论文 以 来 ， 
各 种 新 理论 .新 技术 或 者 新 应 用 不 断 涌现 ,从 计算 机 的 发 明 、 软 件 工程 的 提出 ,到 互联 网 、 
万 维 网 的 出 现 ,再 到 云 计算 、 大 数据 的 出 现 ,整整 80 年 间 计算 机 有 了 突飞猛进 的 发 展 , 也 
推动 了 人 类 社会 的 变革 (图 1-3)。 
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计算 机 HRA 万 维 网 云 计 算 ”大 数据 + 智能 ? 
大 数据 
1-3 每 个 十 年 的 技术 发 展 代表 


1936 年 5 月 ,图 灵 向 伦敦 权威 的 数学 杂志 投了 一 篇 论文 , 题 为 ( 论 数字 计算 在 决断 
难题 中 的 应 用 》。 该 文 于 1937 年 在 (伦敦 数学 会 文集 ?第 42 期 上 发 表 后 ,立即 引 
起 广泛 的 关注 。 在 论文 的 附录 里 ,他 描述 了 一 种 可 以 辅助 数学 研究 的 机 器 ,后 来 
被 人 称 为 “图 灵机 ”, 第 一 次 在 纯 数 学 的 符号 逻辑 和 实体 世界 之 间 建 立 了 联系 。 现 
在 我 们 所 使 用 的 计算 机 以 及 “人 工 智能 ?都 是 以 此 为 基础 的 。 

1944 年 , 汉 。 诺 依 曼 与 摩根 斯 特 恩 合 著 的 《博弈 论 与 经 济 行为 ) 是 博弈 论 学 科 的 
葛 基 性 著作 ,对 世界 上 第 一 台电 子 计算 机 ENIAC 的 设计 提出 过 建议 。1945 年 3 
月 ,他们 在 共同 讨论 的 基础 上 起 草 了 一 个 全 新 的 “存储 程序 通用 电子 计算 机 方 
案 ” 一 一 EDVAC(Electronic Discrete Variable Automatic Computer)。 这 对 后 来 
计算 机 的 设计 有 决定 性 的 影响 ,特别 是 确定 计算 机 的 结构 ,采用 存储 程序 以 及 二 
进 制 编码 等 ,至 今 仍 为 电子 计算 机 设计 者 所 遵循 。 

1968 年 10 月 ,在 德国 的 南部 小 城 加 尔 米 施 (Garmisch) 举 行 了 一 次 在 软件 历史 上 
非常 有 名 的 会 议 ,会 议 由 北大 西洋 公约 组 织 C(NATO) 的 科技 委员 会 出 资 ,会 议 的 
名 字 就 叫 * 软 件 工程 大 会 "。 软 件 工程 在 当时 还 是 一 个 新 鲜 名 词 ,这 个 会 议 颇 有 
“以 战略 眼光 审视 新 出 现 的 软件 危机 ?的 意味 。 软 件 工程 是 一 门 研究 用 工程 化 方 
法 构建 和 维护 有 效 的 、 实 用 的 和 高 质量 的 软件 的 学 科 。 它 涉及 程序 设计 语言 、 
据 库 、 软 件 开发 工具 、 系 统 平台 、 标 准 、 设 计 模 式 等 方面 。 

1969 年 12 月 ,ARPANET 投入 运行 ,建成 了 一 个 实验 性 的 由 4 个 节点 连接 的 网 
络 。 到 1983 年 ,ARPANET 已 连接 了 三 百 多 台 计 算 机 , 供 美国 各 研究 机 构 和 政府 
部 门 使 用 。1983 年 ,ARPANET 分 为 ARPANet 和 军用 的 MILNET (Military 
Network) ,两 个 网 络 之 间 可 以 进行 通信 和 资源 共享 。 由 于 这 两 个 网 络 都 是 由 许 
多 网 络 互 联 而 成 的 ,因此 它们 都 被 称 为 Internet,ARPANet 就 是 Internet 的 前 身 。 
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1989 年 3 月 , 伯 纳 斯 . 李 扎 写 了 《关于 信息 化 管理 的 建议 一文 ,文中 提 及 
ENQUIRE 并 且 描 述 了 一 个 更 加 精巧 的 管理 模型 。1990 年 11 月 12 日 他 和 罗 伯 
特 。 卡 里 奥 (Robert Cailliau) 合 作 提 出 了 一 个 关于 万 维 网 的 更 加 正式 的 建议 。 
1990 Æ 11 H 13 日 ,他 在 一 台 NeXT 工作 站 上 写 了 第 一 个 网 页 以 实现 他 文中 的 
想法 。WWW 是 环球 信息 网 的 缩写 ( 亦 作 Web, WWW, W3, 2 <4 KH World 
Wide Web) ,中 文 名 字 为 万 维 网 .环球 网 等 , 常 简称 为 Webe WWW 分 为 Web 客 
户 端 和 Web 服务 器 程序 ,Web 客户 端 (常用 浏览 器 ) 可 以 访问 浏览 Web 服务 器 上 
的 页 面 。 
1998 年 ,科学 家 迎 来 了 复杂 网 络 的 又 一 次 突破 性 进展 ,首先 冲破 了 ER 随机 图 理 
论 框 架 。 美 国 康 奈 尔 大 学 理论 和 应 用 力学 系 的 博士 生 Watts 及 其 导师 Strogatz 
在 Nature 杂志 上 发 表 了 题 为 (“小 世界 ”网 络 的 群体 动力 行为 ) 的 论文 ,提出 了 小 
世界 网 络 模型 ,推广 了 “六 度 分 离 ” 的 科学 假设 。“ 六 度 分 离 ” 来 自 对 社会 调查 的 推 
断 , 指 在 大 多 数 人 中 ,任意 两 个 素 不 相识 的 人 通过 朋友 的 朋友 ,平均 最 多 通过 6 个 
人 就 能 够 彼此 认识 。 
2001 年 1 月 ,维基 百科 由 Bomis 网 站 的 总 裁 吉米 ， 威尔士 发 起 。 维 基 百 科 是 一 
个 基于 维基 技术 的 全 球 性 多 语言 百科 全 书 协作 计划 ,同时 也 是 一 部 用 多 种 语言 
成 的 网 络 百科 全 书 ,其 目标 及 宗旨 是 为 全 人 类 提供 自由 的 百科 全 书 一 一 用 他 们 所 
选择 的 语言 来 书写 而 成 的 ,是 一 个 动态 的 、 可 自由 访问 和 编辑 的 全 球 知识 体 。 
2006 年 8 月 ,Google 首席 执行 官 埃 里 克 … 施 密 特 在 搜索 引擎 大 会 (SES San Jose 
2006) 首 次 提出 “ 云 计算 ”(cloud computing) 的 概念 。 对 云 计 算 的 定义 有 多 种 说 
法 ,至 少 可 以 找到 100 种 解释 。 现 阶段 广 为 接 受 的 是 美国 国家 标准 与 技术 研究 院 
(NIST) 的 定义 : 云 计算 是 一 种 按 使 用 量 付费 的 模式 ,这 种 模式 提供 可 用 的 、 便 捷 
的 、 按 需 的 网 络 访 问 ,进入 可 配置 的 计算 资源 共享 池 ( 资 源 包括 网 络 、 服 务 器 、 存 
储 、 应 用 软件 、 服 务 ) ,这 些 资源 能 够 被 快速 提供 ,只 需 投 入 很 少 的 管理 工作 ,或 与 
服务 供应 商 进行 很 少 的 交互 。 
2007 年 3 AA + Fe HR AKT + 莱茵 泽 尔 及 互联 网 数据 中 心 (IDC) 的 其 他 研 
究 人 员 出 版 了 一 本 白皮书 , 题 为 (膨胀 的 数字 宇宙 : 2010 年 世界 信息 增长 预测 》。 
这 是 第 一 份 评估 与 预测 每 年 世界 所 产生 与 复制 的 数字 化 数据 总 量 的 研究 。 

传统 的 网 络 计算 主要 是 一 种 基于 互联 网 的 计算 系统 ,而 人 机 交互 的 互联 计算 强调 的 
是 人 对 云 计算 的 参与 和 贡献 ,人 已 经 作为 一 种 计算 资源 介入 计算 系统 之 中 ,可 以 参与 到 云 
计算 的 输入 .计算 处 理 过 程 和 输出 。 这 样 的 说 法 乍 一 看 可 能 还 感觉 有 点 陌生 ,但 是 每 个 人 
却 每 时 每 刻 都 在 经 历 着 ,比如 : 

。 2015 年 春节 的 关键 词 :“ 摇 一 摇 、 抢 红包 !”。 

。 春节 期 间 微 信 红包 收发 总 量 为 32.7 亿 次 ,“ 春 晚 授 一 授 ” 互 动 总 量 超过 110 亿 次 

(22 时 34 分 春晚 播 一 摇 互 动 出 现 峰 值 ,达到 了 8. 1 亿 次 /分 ) 。 

。 微 信 红 包 的 发 放 者 不 仅 是 机 器 ,还 有 大 量 人 的 参与 。 

。 接收 者 如 何 判 断 是 人 还 是 机 器 自动 发 出 的 红包 ? 

还 有 很 多 其 他 的 例子 ,比如 : 
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。 脑 机 接口 。 通 过 意念 控制 机 器 ,实现 了 大 脑 参与 到 整个 计算 系统 之 中 。 
。 常识 性 知识 表达 。 这 项 研究 中 存在 几 个 关键 的 挑战 ,主要 是 常识 性 知识 的 数据 量 
庞大 , 既 无 法 用 自然 语言 清晰 地 描述 ,也 无 法 用 形式 化 方法 进行 描述 , 它 的 边界 更 
是 难以 确定 。 人 机 交互 的 互联 计算 的 出 现 有 望 解决 这 一 难题 。 
在 人 机 交互 的 互联 计算 环境 中 ,数据 的 处 理 不 仅 是 机 器 在 做 ,还 有 人 的 参与 。 世 界 上 
有 机 器 人 ,也 出 现 了 人 机 器 ;世界 上 有 计算 机 ,现在 也 有 了 计算 人 。 实 际 上 , 当 机 器 被 用 来 
代替 人 的 部 分 功能 ,就 是 机 器 人 。 现 在 已 经 出 现 了 人 作为 整个 系统 的 一 部 分 参与 计算 和 
工作 的 情况 ,这 就 成 了 人 机 器 。 用 来 做 计算 的 机 器 被 称 为 计算 机 。 而 在 人 机 交互 的 云 计 
算 系统 里 ,人 作为 整个 系统 的 一 员 产生 贡献 ,此 时 的 人 就 成 了 计算 人 。 我 们 每 天 都 在 享受 
云 计算 ,如 通过 腾讯 视频 观看 最 新 的 体育 节目 、 娱 乐 视频 、 网 络 直 播 ,通过 微 信 与 朋友 、 家 
人 互 传 信息 ,进行 视频 聊天 ,在 当当 、 天 猫 和 京东 等 采购 书籍 、 服 装 和 电子 产品 等 。 云 安全 
看 似 遥 远 ,实际 在 人 们 每 天 在 使 用 网 络 的 时 候 , 也 在 享受 云 安全 服务 。 在 现实 生活 的 交通 
中 ,EE 代 驾 给 入 们 提供 了 很 多 出 行 方便 。 云 计算 服务 人 类 工作 生活 的 案例 也 很 多 ,读者 可 
以 在 自己 的 日 常生 活 中 去 体会 。 
云 计算 也 引发 了 社会 的 诸多 进步 ,下 面 是 几 个 影响 较 大 的 案例 。 


1. 案例 一 : 维基 百科 


维基 之 父 吉米 .威尔士 和 拉 里 . 桑 格 (图 1-4) 在 三 十 多 岁 的 时 候 就 发 出 豪言壮语 ， 
让 世界 上 每 个 人 都 能 自由 地 分 享 人 类 知识 的 总 和 。 他 们 是 怎么 实现 的 呢 ? 网 络 建立 起 了 
-个 人 与 人 可 以 充分 沟通 的 公共 计算 环境 ,群体 智能 也 融入 了 网 络 。 在 维基 百科 这 个 系 
统 里 面 , 大 众 既 是 系统 的 使 用 者 ,也 是 系统 的 开发 者 。 任 何 用 户 都 可 以 对 自己 感 兴趣 的 条 
目 进行 编辑 ,贡献 个 人 观点 和 看 法 。 在 维基 百科 中 ,尽管 每 个 人 对 条 目的 编辑 都 可 能 会 出 
现 错 误 ,甚至 有 恶意 的 算 改 ,但 是 在 大 众 参与 的 情况 下 ,错误 和 恶意 算 改 的 部 分 会 很 快 得 
到 纠正 ,大 部 分 条 目 保持 了 相当 高 的 水 准 。 这 与 人 类 社会 的 进化 演化 过 程 何其 相似 ! 人 
类 社会 的 进化 演化 过 程 不 会 由 于 个 体 的 倒退 而 停止 前 进 的 步伐 。 以 云 计算 条 目 为 例 , 该 
条 目 第 一 次 被 编辑 是 发 生 在 2007 年 ,至 今 累计 有 四 千 多 个 用 户 进行 了 九 千 多 次 编辑 。 目 
前 ,每 天 还 有 两 三 次 的 编辑 。 几 千 人 为 这 样 一 个 条 目 所 做 的 贡献 正 是 基于 云 计算 平 台所 
带 来 的 方便 而 形成 的 。 
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2. 案例 二 : 人 机 交互 的 验证 码 与 光学 字符 识别 (OCR) 系统 


这 是 一 个 典型 的 跨 界 融合 成 功 案例 。reCAPTCHA 人 ? 是 卡 内 基 。 梅 隆 大 学 设计 的 一 
个 系统 , 它 借助 于 人 脑 对 难以 识别 的 字符 的 辨别 能 力 ,对 古旧 书籍 中 难以 被 OCR 系统 识 
别 的 字符 进行 辨别 。 通 过 这 个 系统 把 古旧 书籍 中 的 字符 扫描 下 来 ,发 给 要 登录 输入 验证 
码 的 用 户 ,他 们 用 肉眼 识别 这 些 文字 ,然后 进行 比 对 ,如 果 输 入 正确 ,就 认为 这 个 登录 者 是 
一 个 人 而 不 是 机 器 ,这 就 完成 了 对 登录 者 的 身份 识别 (图 1-5)。 在 这 个 过 程 中 ,解决 了 两 
个 问题 : 一 是 要 判定 一 个 用 户 在 登录 的 时 候 是 人 还 是 机 器 ,这 是 网 络 安全 里 的 一 个 问题 ; 
二 是 实现 了 用 人 来 对 古旧 书籍 中 的 这 些 难以 识别 的 字符 进行 识别 的 能 力 。 如 果 需 要 我 们 
组 织 人 来 做 古旧 书籍 的 文字 识别 ,这 个 工程 是 庞大 的 ,而 现在 每 天 都 有 上 亿 的 人 在 全 世界 
来 帮助 完成 古旧 书籍 中 的 文字 识别 。 也 就 是 说 ,这 个 系统 把 这 两 大 经 典 困 难 问题 融合 到 
了 一 起 ,用 跨 界 思维 的 方式 解决 了 这 两 大 困难 。 在 这 样 一 个 系统 中 ,我 们 不 难看 出 人 已 经 
成 为 一 个 OCR 的 工具 。 

The Norwich line steamboat train, from New- 


London for Boston, this n off the track 
seven miles north of New-) 









Por 





图 1-5 reCAPTCHA 系统 示例 


3. 案例 三 : 其 课 (MOOC) 


42 ER (Massive Open Online Course, 大 规模 开放 在 线 课 堂 )@ 作 为 一 种 在 线 课程 模式 ， 
目前 已 经 在 全 世界 流行 。 如 图 1-6 所 示 ,维基 百科 指出 , 摹 课 海报 中 的 每 一 个 字母 蕴含 可 
协商 性 问题 以 探讨 莫 课 的 含义 (例如 M 字母 蕴含 的 一 个 可 协商 问题 可 以 是 “What is 
Massive?” $E) , 慕 课 没有 完全 既定 的 定义 ,但 有 两 个 显著 的 特点 : 

(1) 开放 共享 (Open access) 。 慕 课 参 与 者 不 必 是 在 校 的 注册 学 生 ,也 不 要 求 交 学 费 ， 
它 是 让 大 家 共享 的 。 

(2) 可 扩张 性 (scalability) 。 许 多 传统 课堂 针对 一 小 群 学 生 ,但 摹 课 里 的 “大 规模 ” 课 
党 是 针对 不 确定 的 参与 者 设计 的 。 

在 莫 课 这 样 一 个 教育 云 系 统 上 面 ,通过 名 师 共享 ,学 生 可 以 在 任何 一 所 学 校 听 到 名 


@ reCAPTCHA 项 目 : https: //www. cylab. cmu. edu/ partners/ success-stories/recaptcha. html 
© https: //en. wikipedia. org/wiki/Massive_open_online_course 
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pL and feedback? 
AND CONNECTIONS Affordable? 


图 1-6 维基 百科 关于 幕 课 每 个 字母 的 含义 的 定义 


师 的 授课 。 同 时 ,借助 智能 导 学 ,名 师 可 以 在 任意 的 时 间 辅 导 大 家 学 习 。 随 着 幕 课 的 
推广 ,可 能 有 人 会 担忧 : 教师 会 不 会 面临 下 岗 ? 这 是 不 可 能 的 ! 实际 上 在 整个 教育 系 
统 中 ,学 校 有 3 方面 的 职能 , 即 培养 人 才 、 科 学 研究 和 服务 社会 ,这 自然 地 就 对 应 了 传 
授 知 识 、 生 产 知识 和 使 用 知识 。 而 莫 课 作为 一 种 新 型 教育 工具 , 仅 对 应 其 中 的 传授 知 
识 环节 。 

通过 这 些 生活 中 的 实际 案例 ,可 以 发 现 ,互联 网 已 经 突破 了 传统 图 灵机 的 范畴 。 随 
着 “互联 网 十 "时代 的 到 来 ,数据 一 直 在 快速 增长 ,人 们 意识 到 一 些 原 有 的 信息 系统 解 
决 方案 针对 大 数据 已 经 无 效 了 。 数 据 已 经 不 能 够 通过 几 台 机 器 或 设备 来 处 理 , 需 要 通 
过 更 多 、 更 大 规模 的 系统 来 解决 大 数据 的 问题 。 单 一 设备 的 计算 性 能 已 经 不 是 大 数据 
平台 计算 的 瓶颈 。 云 计算 和 大 数据 给 人 们 带 来 了 新 的 挑战 。 如 表 1-1 所 示 , 互 联网 上 
的 云 计算 是 以 交互 为 中 心 的 ,而 传统 的 、 集 中 的 调度 和 顺序 的 、 确 定 的 输入 不 能 描述 互 
联网 的 工作 机 理 和 交互 机 理 , 互 联网 不 等 同 于 一 台 虚 拟 的 图 灵机 模型 。 人 已 经 成 为 这 
个 计算 系统 中 的 一 员 。 


表 1-1 图 灵 计 算 与 云 计算 的 区 别 


























图 灵 计 算 a 计算 
重点 关注 CPU 和 操作 系统 重点 关注 节点 间 的 交互 
确定 的 计算 不 确定 的 计算 
最 优 解 尽 可 能 的 解 
统一 的 调度 无 集中 控制 .局 域 偏好 依附 
机 械 的 执行 有 主体 行为 能 力 
可 计算 模型 服务 计算 模型 
人 不 参与 的 计算 人 参与 的 计算 
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我 们 来 比较 一 下 图 灵 计 算 和 云 计算 : 图 灵 计算 关注 CPU 和 操作 系统 ,而 云 计 算 的 关 
注重 点 是 节点 之 间 的 交互 ;图 灵 计算 是 确定 的 计算 ,而 云 计 算是 不 确定 的 计算 ;图 灵 计算 
寻找 的 是 最 优 解 ,而 云 计算 寻找 的 是 尽 可 能 的 解 ; 图 灵 计 算是 统一 的 调度 ,而 云 计 算 的 调 
度 是 没有 集中 控制 的 .局 域 偏好 依附 的 ;图 灵 计 算是 机 械 的 执行 ,而 云 计算 具有 主体 行为 
能 力 ; 图 灵 计 算 采 用 的 是 可 计算 模型 ,而 云 计算 采用 的 是 服务 计算 模型 ;最 后 ,也 是 最 关键 
的 一 点 ,图 灵 计 算是 人 不 参与 的 计算 ,而 云 计算 是 人 参与 其 中 的 计算 。 


12 大 数据 的 发 展 及 挑战 


本 节 介 绍 大 数据 的 发 展 历史 及 现状 ,并 从 系统 平台 、 分 析 处 理 两 个 方面 提出 大 数据 挖 
掘 面临 的 挑战 。 通 过 本 节 的 学 习 , 读 者 可 以 深入 理解 大 数据 的 特征 .发 展 状况 和 面临 的 
挑战 。 


1.2.1 大 数据 的 发 展 催生 三 元 空间 世界 


2012 年 3 月 29 日 ,美国 政府 公布 了 大 数据 研发 计划 。 该 计划 旨 在 改进 人 们 从 海量 
和 复杂 的 数据 中 获取 知识 的 能 力 ,进而 加 速 美国 在 科学 与 工程 领域 发 明 的 步伐 ,强化 国家 
安全 ,转变 现 有 的 教学 和 学 习 方式 。 近 年 来 , 随 着 互联 网 进入 Web 3.0、 制 造 业 进入 工业 
4.0 时 代 , 以 及 物 联网 和 云 计算 的 迅猛 发 展 , 人 类 社会 逐步 进入 了 大 数据 时 代 。 维 基 百 科 
指出 ,大 数据 (big data) ,或 称 巨 量 数据 海量 数据 ,大 资料 , 指 的 是 所 涉及 的 数据 量规 模 巨 
大 到 无 法 通过 人 工 或 者 计算 机 在 合理 的 时 间 内 达到 截取 、 管 理 ,. 处 理 并 整理 成 为 人 类 所 能 
解读 的 形式 的 信息 外。 业界 对 大 数据 的 认识 也 在 不 断 地 变化 并 完善 。2001 年 , 麦 塔 集团 
(META Group) 的 数据 分 析 师 莱 尼 (Doug Laney) 首 先 在 一 份 报告 中 提出 “3-D 数据 管理 ” 
的 大 数据 观点 ,认为 数据 成 长 将 朝 3 个 方向 发 展 ,分 别 是 数据 即时 处 理 的 速度 
(Velocity) ,数据 格式 的 多 样 化 (Variety) 和 数据 量 的 规模 (Volume) ,这 被 认为 是 大 数据 
3V 特点 的 来 源 。 近 年 来 , 随 着 科学 技术 的 发 展 ,获取 分析、 存储 数据 的 手段 发 生 了 巨大 
的 变化 ,3V 已 经 不 足以 形容 现今 的 大 数据 。 在 2012 年 ,包括 科技 巨头 IBM, Google 和 国 
际 调查 机 构 Gartner IDC 等 纷纷 对 大 数据 提出 新 的 论述 ,将 3V 提升 至 4V 甚至 5V( 图 1-7)。 
TIE 3V AV 还 是 5V ,一 般 地 ,人 们 认为 大 数据 具备 以 下 特征 : 

。 稠密 与 稀疏 共存 局 部 稠密 与 全 局 稀 疏 。 

。 元 余 与 缺失 并 在 一 一 大 量 宛 余 与 局 部 缺失 。 

。 显 式 与 隐 式 均 有 一 一 大 量 显 式 与 丰富 隐 式 。 

。 静态 与 动态 互 现 一 一 动态 演进 与 静态 关联 。 

。 多 元 与 异 质 共处 一 一 多 元 多 变 与 异 质 异性 。 

。 量 大 与 可 用 矛盾 一 一 量 大 低 值 与 可 用 稀少 。 

从 数据 本 身 的 角度 而 言 , 大 数据 技术 能 够 发 现 数据 之 间 存 在 的 直接 或 间接 的 关联 性 ， 
通过 采用 一 系列 技术 和 方法 挖掘 并 展现 数据 中 蕴含 的 价值 ,包括 数据 采集 、 预 处 理 , 存 储 、 
分 析 挖 掘 \ 可 视 化 等 。 这 是 一 个 通过 对 特定 的 大 数据 集 或 应 用 进行 分 析 ,获得 有 价值 信息 
的 过 程 。 大 数据 技术 的 研究 与 突破 ,其 最 终 目 标 即 是 从 复杂 的 数据 集中 发 现 新 的 模式 与 
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VELOCITY 


实时 性 


VARIETY VERACITY § 


2 样 性 : 真 实 性 ea Files 





图 1-7 大 数据 的 5V 特点 


知识 ,挖掘 得 到 有 价值 的 新 信息 外。 对 于 大 数据 的 定义 ,不 同 的 人 有 不 同 的 看 法 ,但 是 有 
一 个 共识 : 大 数据 需要 新 的 处 理 模式 ,才能 具有 更 强 的 决策 力 ` 洞 察 发 现 力 和 流程 优化 能 
力 来 适应 海量 ,高 增长 率 和 多 样 性 的 信息 资产 。 人 们 经 常 提 到 的 3V、4V、5V, 甚 至 以 后 可 
能 更 多 个 V ,核心 都 是 表明 大 数据 质量 要 求 高 ,具体 表现 在 数据 量 巨大 、 种 类 繁多 .变化 速 
度 快 .价值 密度 高 .同时 准确 性 要 求 高 等 方面 。 

互联 网 、 云 计算 的 发 展 催生 了 大 数据 的 出 现 。 但 是 事实 上 大 数据 已 经 出 现 了 千 万 年 ， 
这 得 益 于 人 类 的 眼睛 、 耳 条 等 最 原始 、 最 自然 的 生理 器 官 这 些 高 精度 、 智 能 的 视听 传感器 。 
遗憾 的 是 ,以 前 人 类 虽然 有 这 些 高 精度 传感器 ,但 是 这 些 传感器 的 数据 没有 进行 数字 化 ， 
没有 互联 ,也 就 没有 大 数据 的 问题 。 现 在 互联 网 把 这 些 数 据 连 起 来 了 ,也 就 有 了 大 数据 的 
问题 。 各 个 行业 里 也 存在 大 数据 ,比如 金融 医疗. 保险、 交通 气象 .制造 等 各 行 各 业 有 各 
种 数据 , 当 这 些 数据 没有 连 起 来 时 就 是 信息 的 孤岛 ,一 旦 连 起 来 ,就 是 人 们 可 以 利用 的 大 
数据 。 人 们 对 物理 空间 的 认识 导致 了 自然 科学 的 出 现 ;人 们 对 社会 的 认 知 导致 了 社会 科 
学 的 诞生 ;在 今天 的 数据 空间 ,有 了 很 好 的 数据 ,这 些 数据 甚至 已 经 互联 ,它们 相互 之 间 能 
够 有 相互 的 作用 了 ,这 时 候 也 会 导致 数据 和 计算 科学 的 诞生 。 在 数据 空间 中 ,甚至 出 现 了 
一 个 新 的 人 类 ,也 就 是 网 民 。 

对 于 悲观 者 而 言 , 大 数据 意味 着 数据 存储 世界 的 末日 ;对 乐观 者 而 言 ,这 里 孕育 了 巨 
大 的 市 场 机 会 ,庞大 的 数据 就 是 一 个 信息 金 矿 。 随 着 技术 的 进步 ,其 财富 价值 将 很 快 被 人 
们 发 现 ,而 且 越 来 越 容 易 。 本 书 认为 大 数据 是 需要 新 的 处 理 模 式 才能 具有 更 强 的 决策 力 、 
洞察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 简 而 言 之 ,大 数据 分 
析 的 过 程 将 越 来 越 智能 ,大 数据 分 析 的 结果 将 越 来 越 多 地 服务 于 人 们 的 社会 和 生活 。 豫 
动 社会 物理 学 的 引擎 是 大 数据 一 一 近年 来 无 所 不 在 的 .关于 人 类 生活 的 各 个 方面 的 数字 
数据 。 社 会 物理 学 的 作用 体现 在 分 析 人 类 活动 的 规律 以 及 人 类 活动 所 留 下 的 数字 “面包 
眉 ”( 通 话 记录 、 通 勤 记录 、 网 购 记录 .刷卡 记录 等 ) 里 包含 的 想法 中 四。 我 们 究 竞 是 怎么 样 
的 一 个 人 ,不 是 通过 我 们 声称 自己 做 了 什么 ,而 是 通过 我 们 去 过 的 地 点 、 购 买 的 物品 发送 
的 短信 息 等 更 为 准确 地 决定 的 ,也 就 是 我 们 的 精准 个 人 画像 。 
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世界 的 演化 发 展 经 历 了 一 元 空间 、 二 元 空间 ,正在 向 三 元 空间 发 展 。 人 类 社会 诞生 之 
前 ,世上 仅 有 物理 空间 (一 元 ); 随 着 人 类 社会 的 形成 和 发 展 , 产 生 了 社会 空间 (二 元 ); 人 类 
社会 进入 信息 社会 , 正 逐 步 形 成 数据 空间 (三 元 ) ,数据 成 为 物质 与 能 源 之 外 的 新 型 资源 。 
人 类 对 传统 二 元 空间 的 认识 形成 了 自然 科学 、 社 会 科学 ,对 数据 空间 的 认识 将 逐渐 形成 数 
据 科学 /计算 科学 。 在 数据 空间 演化 成 熟 并 被 人 类 深入 认识 之 前 ,实践 和 技术 的 发 展 正在 
倒 副 科学 的 发 展 ,正如 现代 科学 技术 的 诞生 与 形成 过 程 一 样 。 数 据 /计算 科学 在 未 来 也 将 
反 过 来 推动 人 类 文明 的 进步 ,正如 现代 航空 航天 、 核 能 技术 、 电 子 技术 等 诸多 现代 科技 对 
社会 发 展 的 推动 一 样 。 然 而 ,目前 人 们 还 有 没 很 好 地 充分 利用 身边 的 数据 信息 。 人 们 花 
了 很 大 的 代价 来 获取 、 存 储 , 传 输 、 处 理 各 种 数据 ,但 是 还 没有 能 够 很 好 地 实现 它 的 价值 。 
在 建设 节约 型 社会 的 今天 .物质 .能 量 \ 环 境 资源 不 能 够 浪费 ,同样 ,数据 资源 也 不 能 
浪费 。 


1.2.2 大 数据 智能 分 析 处 理 面临 的 挑战 


大 数据 在 带 来 发 展 机 遇 的 同时 ,也 带 来 了 新 的 挑战 ,催生 了 新 技术 的 发 展 和 旧 技 术 的 
革新 。 不 断 增长 的 数据 规模 和 数据 的 动态 快速 产生 要 求 必须 采用 分 布 式 计算 框架 才能 实 
现 与 之 相 匹配 的 吞吐 和 实时 性 ,而 数据 的 持久 化 保存 也 离 不 开 分 布 式 存储 。 庞 大 的 数据 
规模 与 数据 质量 的 参差 不 齐 对 模型 提出 了 新 的 要 求 ,不 再 是 一 成 不 变 、 一 步 到 位 的 高 精度 
计算 模型 ,而 是 可 以 更 加 智能 ,能 够 随 着 数据 的 到 来 和 变化 进行 一 定 的 自主 学 习 和 训练 的 
智能 计算 模型 。 这 对 传统 的 理论 模型 计算 方法 提出 了 新 的 挑战 92020309 ,主要 体现 在 
系统 平台 和 分 析 处 理 两 个 方面 。 


1. 系统 平台 方面 


大 数据 智能 计算 给 系统 平台 带 来 以 下 几 个 挑战 。 

(1) 大 数据 处 理 与 硬件 协同 。 因 数据 中 心 硬件 架构 .厂商 .采购 年 代 不 同 带 来 的 硬件 
易 购 性 ,将 使 木 桶 效应 在 集群 中 变 得 极为 复杂 ;技术 变革 促进 了 新 硬件 的 产生 ,数据 中 心 
的 基础 硬件 体系 结构 已 经 从 传统 的 CPU- 内 存 -HDD 硬盘 3 级 结构 逐渐 升级 为 CPU 十 
GPU- 内 存 -SSD 硬盘 -HDD 硬盘 的 混合 计算 、 混 合 存储 体系 结构 。 

(2) 大 数据 集成 。 数 据 类 型 的 多 样 性 和 数据 采集 设备 的 多 样 性 ,使 得 数据 集成 过 程 
中 的 数据 转换 变 得 非常 复杂 和 难以 管理 ;数据 质量 因数 据 规模 的 增加 反而 变 得 越 来 越 差 ， 
亟 须 研 究 更 便捷 有效 的 方式 实现 数据 清洗 ,实现 质 与 量 的 平衡 。 

(3) 大 数据 隐私 。 随 着 数据 规模 的 增加 和 新 的 数据 挖掘 模型 的 产生 ,如 何 有 效 地 保 
护 数据 中 的 用 户 隐私 ,并 应 对 数据 动态 变化 带 来 的 隐私 保护 模型 失效 ,将 更 具 挑战 。 

(4) 大 数据 能 耗 。 大 数据 中 心 除了 正常 提供 服务 的 能 耗 外 ,还 提供 了 一 定 的 闲置 比 
例 以 应 对 突如其来 的 计算 、 网 络 流量 高 峰 。 高 能 耗 已 经 成 为 制约 大 数据 快速 发 展 的 一 个 
主要 瓶颈 ,新 型 低 功 耗 硬件 的 研发 和 再 生 能 源 的 使 用 正在 引起 人 们 的 重视 。 

(5) 大 数据 管理 。 一 方面 ,在 大 数据 时 代 , 数 据 处 理 、 控 掘 及 其 结果 形式 更 加 多 样 
化 。 复 杂 的 分 析 过 程 和 难以 理解 的 分 析 结 果 限 制 了 人 们 从 大 数据 中 快速 获取 知识 的 
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能 力 。 从 数据 集成 到 数据 分 析 , 直 到 最 后 的 数据 解释 , 易 用 性 贯穿 整个 大 数据 管理 过 
程 。 可 视 化 .人 机 交互 及 数据 起 源 技术 都 可 以 有 效 地 提升 易 用 性 ,而 这 3 类 技术 的 背后 
又 离 不 开 海 量 元 数据 管理 技术 的 支撑 。 另 一 方面 ,关系 数据 库 产品 的 成 功 离 不 开 以 
TPC 系列 为 代表 的 测试 基准 的 产生 。 目 前 尚 缺少 全 面 的 大 数据 管理 的 测试 基准 ,其 面 
临 的 主要 挑战 包括 系统 复杂 度 高 ,用户 案 例 多 样 、 数 据 规 模 庞大 .系统 快速 演变 、 测 试 
基准 的 重 构 与 复 用 等 。 


2. 分 析 处 理 方面 


计算 机 中 存在 不 断 变 大 的 数据 集 , 不 存在 绝对 的 大 数据 ,计算 机 中 的 所 有 数据 集 都 是 
有 限 集合 。 小 数据 集合 上 的 处 理 和 分 析 方 法 在 直接 移植 到 大 数据 上 时 因数 据 本 身 的 特点 
而 被 放大 ,这 个 问题 将 对 传统 的 方法 带 来 极 大 的 挑战 ,甚至 使 传统 的 方法 失效 。 

(1) 大 数据 质量 。 数 据 量 大 不 一 定 就 代表 信息 量 或 者 数据 价值 的 增 大 ,相反 ,很 多 
时 候 意 味 着 信息 垃圾 的 泛滥 。 数 据 清洗 在 大 数据 处 理 过 程 中 对 计算 性 能 和 计算 精度 
起 着 至 关 重 要 的 作用 。 如 果 数 据 清 洗 的 粒度 过 细 , 很 容易 将 有 用 的 信息 过 滤 掉 ;而 如 
果 清 洗 粒度 过 粗 ,又 无 法 达到 真正 的 清洗 效果 。 因 此 ,在 质 与 量 之 间 需 要 进行 仔细 的 
考量 和 权衡 。 

(2) 大 数据 实时 性 。 时 间 流 逝 带 来 了 数据 蕴含 的 知识 的 衰减 。 为 了 解决 这 一 问 
题 ,诸多 应 用 场景 从 离线 向 在 线 转变 ,这 对 大 数据 分 析 的 实时 性 提出 了 较 高 的 要 求 。 
结构 化 数据 一 般 都 有 较 好 的 先 验 知识 和 较 固定 的 索引 方法 ,而 半 结 构 化 和 非 结构 化 数 
据 需要 额外 的 时 间 去 建立 先 验 知识 和 索引 方法 ,给 数据 处 理 和 分 析 的 时 效 性 带 来 了 巨 
大 的 挑战 。 实 时 处 理 的 模式 选择 主要 有 3 种 思路 : 流 处 理 模式 、 批 处 理 模式 ( 准 实时 ) 
和 二 者 的 融合 。 

(3) 大 数据 采样 。 研 究 如 何 把 大 数据 变 小 ,找到 与 算法 相 适 应 的 极 小 样本 集 , 并 降低 
采样 对 算法 误差 的 影响 。 

(4) 大 数据 不 一 致 性 。 数 据 质 量 的 一 个 重要 方面 是 不 一 致 性 检测 。 使 用 不 一 致 的 数 
据 可 能 导致 错误 的 决策 ,甚至 会 付出 昂贵 的 代价 ,并 最 终 导致 算法 失效 或 无 解 。 

(5) 大 数据 超 高 维 性 。 大 数据 处 理 中 的 超 高 维 问题 突出 , 因 超 高 维 导 致 的 数据 稀 朴 
问题 增加 了 急剧 计算 和 分 析 方 法 的 复杂 度 。 

(6) 大 数据 不 确定 性 。 大 数据 处 理 中 经 常 发 生 原 始 数 据 不 准确 、 粗 粒度 数据 集合 向 
细 粒 度 集合 的 转变 ,数据 值 的 缺失 、 多 模 态 数据 集成 和 模 态 转化 等 问题 , 吸 须 研究 新 的 数 
据 管理 和 数据 分 析 模 型 来 应 对 大 规模 数据 的 不 确定 性 问题 。 

继 几 千年 前 的 经 验 科学 、 数 百年 前 的 理论 科学 和 数 十 年 前 的 计算 科学 之 后 ,当今 的 数 
据 爆炸 孕育 了 数据 密集 型 科学 ,将 理论 .实验 和 计算 仿真 等 范式 统一 起 来 ( 表 1-2)。 大 数 
据 具 有 “ 取 之 不 尽 , 用 之 不 竭 " 的 特性 ,在 不 断 的 再 利用 、 重 组 和 扩展 中 持续 释放 其 潜在 价 
值 ,在 广泛 的 公开 共享 中 不 断 创 造 着 新 的 财富 ,被 誉 为 “ 非 竞 争 性 ”生产 要 素 。 大 数据 被 
定义 为 科学 研究 的 第 四 范式 , 即 eScience。 
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R12 科学 研究 的 范式 
科学 范式 年 代 方法 AO 








数 千年 前 , 亚 里 士 多 
德 时 代 

第 二 范式 | 数 百年 前 ,牛顿 时 代 | 基于 理论 研究 的 ”| 着 眼 于 建立 数学 模型 并 进行 推广 

借助 强大 的 计算 能 力 , 可 以 模拟 复杂 的 自 


第 一 范式 基于 经 验 的 用 于 描述 自然 现象 























第 三 范式 | 几 十 年 前 基于 计算 的 pt 
利用 仪器 获取 数据 或 者 利用 模拟 器 生成 
第 四 范式 数据 ,再 利用 软件 进行 处 理 , 将 知识 或 信 
(eScience) | 当今 基于 数据 探索 的 ”| 息 存 储 在 计算 机 中 ,科学 家 利用 数据 管理 
技术 和 统计 方法 进行 科学 探索 
13 数据 挖掘 概述 


本 节 对 传统 数据 挖掘 和 大 数据 挖掘 进行 概述 ,为 读者 更 好 地 认识 大 数据 挖掘 奠定 基 
础 。1. 3. 1 节 介 绍 数据 挖掘 的 基本 概念 ,1. 3. 2 节 介 绍 数据 挖掘 的 功能 ,1. 3. 3 节 介绍 数 
据 挖掘 运用 的 技术 ,最 后 对 大 数据 挖掘 与 传统 数据 挖掘 方法 进行 比较 。 


1.3.1 数据 挖掘 的 概念 


随 着 信息 科技 的 进步 和 网 络 的 发 达 、 计 算 机 运算 能 力 的 增强 以 及 数据 存储 技术 的 不 
断 改进 ,人 类 社会 正 迈 向 信息 时 代 。 数 据 的 爆炸 式 增长 ,广泛 利用 和 巨大 体 量 使 得 我 们 的 
时 代 成 为 真正 的 数据 时 代 , 迫 切 需要 功能 强大 和 通用 的 工具 ,以便 从 大 数据 中 发 现 有 价值 
的 信息 ,将 这 些 数据 转换 成 有 用 的 信息 和 知识 ,所 获取 的 信息 和 知识 可 以 广泛 用 于 各 种 应 
用 ,包括 商务 管理 .生产 控制 .市场 分 析 、 工 程 设计 和 科学 探索 等 。 数 据 挖掘 方法 利用 了 来 
自 许 多 领域 的 技术 思想 ,如 来 自 统计 学 的 抽样 .估计 和 假设 检验 ,来 自 人 工 智能 、 模 式 识别 
和 机 器 学 习 的 搜索 算法 、 建 模 技术 和 学 习 理论 ,来 自 包括 最 优化 .进化 计算 、 信 息 论 、 信 和 号 
处 理 、. 可 视 化 和 信息 检索 等 的 重要 支撑 。 随 着 数据 量 的 越 来 越 大 , 源 于 高 性 能 分 布 式 并 行 
计算 和 存储 的 技术 在 大 数据 挖掘 和 应 用 中 显得 尤为 重要 。 

许多 人 把 数据 挖掘 视 为 另 一 个 流行 术语 一 一 数据 中 的 知识 发 现 (KDD) 的 同义词 ,而 
另 一 些 人 只 是 把 数据 挖掘 视 为 知识 发 现 过 程 的 一 个 基本 步 又。 一般 认为 ,知识 发 现 由 以 
下 步骤 的 迭代 序列 组 成 : 

(1) 数据 清理 一 一 消除 噪声 和 删除 不 一 致 数据 。 

(2) 数据 集成 一 一 多 种 数据 源 可 以 组 合 在 一 起 ,形成 数据 集 市 或 数据 仓库 。 

(3) 数据 选择 一 一 从 数据 库 中 提取 与 分 析 任务 相关 的 数据 。 

(4) 数据 变换 一 一 通过 汇总 或 聚集 操作 ,把 数据 经 过 变换 统一 成 适合 挖掘 的 形式 。 

(5) 数据 挖掘 一 一 使 用 智能 方法 提取 数据 模式 。 

(6) 模式 评估 一 一 根据 某 种 兴趣 度量 ,识别 代表 知识 的 真正 有 趣 的 模式 。 

(7) 知识 表示 一 一 使 用 可 视 化 和 知识 表示 技术 向 用 户 提供 挖掘 的 知识 。 
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1.3.2 数据 挖掘 的 功能 


数据 挖掘 功能 用 于 指定 数据 挖掘 任务 发 现 的 模式 。 一 般 而 言 ,这 些 任务 可 以 分 为 描 
述 性 的 和 预测 性 的 。 描 述 性 挖掘 任务 刻画 目标 数据 中 数据 的 一 般 性 质 ; 预测 性 挖掘 任务 
在 当前 数据 上 进行 归纳 ,以 便 做 出 预测 。 如 图 1-8 所 示 ,常见 的 数据 挖掘 功能 包括 聚 类 、 
分 类 关联 分 析 、 数 据 总 结 、 偏 差 检测 和 预测 等 。 其 中 聚 类 关联 分 析 ,数据 总 结 、 偏 差 检 测 
可 以 认为 是 描述 性 任务 ,分 类 和 预测 可 以 认为 是 预测 性 任务 。 


把 数据 分 成 不 同 的 群 组 ， 群 组 之 间 差 异 明显 


把 握 分 析 对 象 发 展 的 规律 
对 未 来 的 趋势 做 出 预见 


构造 一 个 分 类 器 ， 把 数据 映射 
到 给 定 类 别 中 的 某 一 个 


对 分 析 对 象 的 少数 的 、 极 端的 


特例 进行 描述 ， 揭 示 内 在 的 原因 HEA RAE 





对 数据 进行 浓缩 ， 给 出 它 的 紧凑 描述 
图 1-8 数据 挖掘 的 主要 功能 分 类 


。 聚 类 。 聚 类 是 一 个 把 数据 对 象 (或 观测 ) 划 分 成 子 集 的 过 程 ,每 个 子 集 是 一 个 簇 。 
数据 对 象 根据 最 大 化 类 内 相似 性 、 最 小 化 类 间 相 似 性 的 原则 进行 聚 类 或 分 组 。 因 
为 没有 提供 类 标号 信息 ,通过 观察 学 习 而 不 是 通过 示例 学 习 , 聚 类 是 一 种 无 监督 
学 习 。 

。 分 类 。 分 类 是 一 种 重要 的 数据 分 析 形 式 , 它 提取 刻画 重要 数据 类 的 模型 。 这 种 模 
型 称 为 分 类 器 ,预测 分 类 的 (离散 的 、 无 序 的 ) 类 标号 ,是 一 种 监督 学 习 , 即 分 类 器 
的 学 习 是 在 被 告知 每 个 训练 元 组 属于 哪个 类 的 “监督 "下 进行 的 。 

。 关联 分 析 。 若 两 个 或 多 个 变量 的 取 值 之 间 存 在 某 种 规律 性 ,就 称 为 关联 。 关 联 可 
分 为 简单 关联 、 时 序 关联 、 因 果 关 联 等 。 关 联 分 析 的 目的 是 找 出 数据 中 隐藏 的 关 
联网 。 有 了 时 并 不 知道 数据 的 关联 函数 ,即使 知道 也 是 不 确定 的 ,因此 关联 分 析 生 
成 的 规则 带 有 可 信和 度 。 

。 数据 总 结 。 从 数据 分 析 中 的 统计 分 析 演 变 而 来 ,其 目的 是 对 数据 进行 浓缩 ,给 出 
它 的 紧凑 描述 。 其 中 ,数据 描述 就 是 对 某 类 对 象 的 内 涵 进 行 描述 ,并 概括 这 类 对 
象 的 有 关 特 征 。 数 据 描述 分 为 特征 性 描述 和 区 别 性 描述 ,前 者 描述 某 类 对 象 的 共 
同 特征 ,后 者 描述 不 同类 对 象 之 间 的 区 别 。 
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偏差 检测 。 偏 差 包 括 很 多 潜在 的 知识 ,如 分 类 中 的 反常 实例 ,不 满足 规则 的 特例 、 
观测 结果 与 模型 预测 值 的 偏差 . 量 值 随时 间 的 变化 等 。 偏 差 检 测 的 基本 方法 是 ， 
寻找 观测 结果 与 参照 值 之 间 有 意义 的 差别 ,对 分 析 对 象 中 少数 的 、 极 端的 特例 进 
行 描述 ,解释 内 在 原因 。 

预测 。 通 过 对 样本 数据 (历史 数据 ) 的 输入 值 和 输出 值 的 关联 性 学 习 , 得 到 预测 模 
型 ,再 利用 该 模型 对 未 来 的 输入 值 进 行 输出 值 预 测 。 


1.3.3 数据 挖掘 运用 的 技术 


数据 挖掘 研究 与 开发 的 边缘 学 科 特 性 极 大 地 促进 了 数据 挖掘 的 成 功 和 广泛 应 用 。 近 
年 来 ,数据 挖掘 吸纳 了 统计 学 、 机 器 学 习 、 模 式 识别 数据库 和 数据 仓库 .信息 检索 、 可 视 
化 ,算法 分 析 、 高 性 能 计算 等 许多 领域 的 大 量 技术 。 


统计 学 。 研 究 数 据 的 收集 、 分 析 、 解 释 和 标示 。 统 计 学 方法 可 以 用 来 汇总 或 描述 
数据 集 , 也 可 以 用 来 验证 数据 挖掘 结果 。 推 理 统计 学 用 某 种 方式 对 数据 建 模 , 解 
释 观 测 中 的 随机 性 和 确定 性 ,并 用 来 提取 关于 所 观察 的 过 程 或 总 体 的 结论 。 统 计 
假设 检验 使 用 实验 数据 进行 统计 判决 ,如 果 结果 不 大 可 能 随机 出 现 , 则 称 它 为 统 
计 显 著 的 。 

机 器 学 习 。 考 察 计算 机 如 何 基于 数据 学 习 。 研 究 热点 领域 之 一 是 基于 数据 自动 
地 学 习 识别 复杂 的 模式 ,并 做 出 智能 的 决断 。 与 数据 挖掘 高 度 相关 的 、 经 典 的 机 
器 学 习 问 题 包括 监督 学 习 、 无 监督 学 习 、 半 监督 学 习 、 主 动 学 习 等 。 
数据 库 与 数据 仓库 。 许 多 数据 挖掘 任务 都 需要 处 理 大 型 数据 集 , 甚 至 是 处 理 实时 
的 快速 流 数据 。 因 此 ,数据 挖掘 可 以 很 好 地 利用 可 伸缩 的 数据 库 技术 ,以 便 获得 
在 大 型 数据 集 上 的 高 效率 和 可 伸缩 性 。 数 据 仓 库 集成 来 自 多 种 数据 源 和 各 个 时 
间 段 的 数据 ,在 多 维 空间 合并 数据 ,形成 部 分 物化 的 数据 立方 体 。 多 维 数据 挖掘 
以 OLAP 风格 在 多 维 空间 进行 数据 挖掘 ,允许 在 各 种 粒度 进行 多 维 组 合 探查 ,更 
有 可 能 发 现代 表 知 识 的 有 趣 模式 。 

信息 检索 。 是 指 搜索 文档 或 文档 中 信息 的 技术 ,其 中 文档 可 以 是 结构 化 文本 数据 
或 非 结构 化 多 媒体 数据 ,并 且 可 能 驻 留 在 Web 上 。 通 过 集成 信息 检索 模型 和 数 
据 挖掘 技术 ,可 以 找 出 文档 集中 的 主要 主题 ,对 集合 中 的 每 个 文档 , 找 出 所 涉及 的 
主要 主题 等 。 

可 视 化 。 数 据 的 采集 、 提 取 和 理解 是 人 类 感知 和 认识 世界 的 基本 途径 之 一 ,数据 
可 视 化 为 人 类 洞察 数据 的 内 涵 、 理 解数 据 蕴藏 的 规律 提供 了 重要 的 手段 "" 。 现 
有 的 数据 挖掘 技术 在 应 对 海量 、 高 维 、 多 源 和 动态 数据 的 分 析 时 ,需要 综合 可 视 
化 、 图 形 学 ,大 数据 挖掘 理论 与 方法 ,借助 新 的 理论 模型 .可视化 方法 和 交互 手段 ， 
辅助 用 户 从 大 尺度 、 复 杂 、 矛 盾 甚 至 不 完整 的 数据 中 快速 挖掘 有 用 的 信息 ,以 便 做 
出 有 效 决策 。 也 因此 诞生 了 一 门 新 兴学 科 : 可 视 分 析 学 。 


1.3.4 大 数据 挖掘 与 传统 数据 挖掘 
大 数据 带 来 了 三 大 根本 改变 : 第 一 ,大 数据 让 人 们 脱离 了 对 算法 和 模型 的 依赖 ,数据 
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本 身 即 可 帮助 人 们 贴近 事情 的 真相 ;第 二 ,大 数据 弱化 了 因果 关系 。 大 数据 分 析 可 以 挖掘 
出 不 同 要 素 之 间 的 相关 关系 ,人 们 不 需要 知道 这 些 要 素 为 什么 相关 ,就 可 以 利用 其 结果 ， 
在 信息 复杂 错 综 的 现代 社会 ,这 样 的 应 用 将 大 大 提高 效率 ;第 三 ,与 之 前 的 数据 库 相 关 技 
术 相 比 ,大 数据 可 以 处 理 半 结构 化 或 非 结构 化 的 数据 ,这 将 使 计算 机 能 够 分 析 的 数据 范围 
迅速 扩大 。 大 数据 挖掘 与 传统 数据 挖掘 的 主要 区 别 体现 在 以 下 几 方面 : 

。 大 数据 挖掘 在 一 定 程度 上 降低 了 对 传统 数据 挖掘 模型 以 及 算法 的 依赖 。 人 们 如 
果 想 要 得 到 精准 的 结论 ,需要 建立 模型 来 描述 问题 ,同时 ,需要 理 顺 迎 辑 、 理 解 因 
果 并 设计 精妙 的 算法 来 得 出 接近 现实 的 结论 。 然 而 ,大 数据 的 出 现在 一 定 程度 上 
改变 了 人 们 对 于 建 模 和 算法 的 依赖 。 当 数据 越 来 越 大 时 ,数据 本 身 (而 不 是 研究 
数据 所 使 用 的 算法 和 模型 ) 保 证 了 数据 分 析 结果 的 有 效 性 。 即 便 缺 乏 精准 的 算 
法 ,只 要 拥有 足够 多 的 数据 ,也 能 得 到 接近 事实 的 结论 ,数据 因此 而 被 誉 为 新 的 生 
Ae 
大 数据 挖掘 在 一 定 程度 上 降低 了 因果 关系 对 传统 数据 挖掘 结果 精度 的 影响 。 例 
如 ,Google 在 帮助 用 户 翻译 时 ,并 不 是 设 定 各 种 语法 和 翻译 规则 ,而 是 利用 
Google 数据 库 中 收集 的 所 有 用 户 的 用 词 习惯 进行 比较 推荐 。Google 检查 所 有 用 
户 的 写作 习惯 ,将 最 常用 、 出 现 频率 最 高 的 翻译 方式 推荐 给 用 户 。 在 这 一 过 程 中 ， 
计算 机 可 以 并 不 了 解 问题 的 逻辑 ,但 是 当 用 户 行为 的 记录 数据 越 来 越 多 时 ,计算 
机 就 可 以 在 不 了 解 问题 逻辑 的 情况 之 下 提供 最 为 可 靠 的 结果 。 可 见 ,海量 数据 和 
处 理 这 些 数据 的 分 析 工 具 为 理解 世界 提供 了 一 条 完整 的 新 途径 。 
大 数据 挖掘 能 够 在 最 大 程度 上 利用 互联 网 上 记录 的 用 户 行为 数据 进行 分 析 。 大 
数据 出 现 之 前 ,计算 机 所 能 够 处 理 的 数据 都 需要 在 前 期 进行 结构 化 处 理 , 并 记录 
在 相应 的 数据 库 中 。 但 大 数据 技术 对 于 数据 结构 化 的 要 求 大 大 降低 ,互联 网 上 人 
们 留 下 的 社交 信息 ,地理 位 置信 息 行 为 习惯 信息 、 偏 好 信息 等 各 种 维度 的 信息 都 
可 以 实时 处 理 , 从 而 立体 完整 地 勾勒 出 每 一 个 个 体 的 各 种 特征 。 


14 大 数据 挖掘 的 计算 框架 


本 节 介 绍 大 数据 挖掘 的 计算 框架 和 基本 流程 ,为 读者 学 习 大 数据 挖掘 提供 理论 基础 
和 计算 框架 选择 依据 。1. 4. 1 节 介 绍 大 数据 挖掘 计算 框架 的 主流 架构 和 核心 组 件 ,1. 4.2 
节 介 绍 大 数据 挖掘 处 理 的 基本 流程 和 工具 。 


1.4.1 大 数据 挖掘 计算 框架 


大 数据 计算 技术 采用 分 布 式 计 算 框架 来 完成 大 数据 的 处 理 和 分 析 任 务 。 作 为 分 布 式 
计算 框架 ,不仅 要 提供 高 效 的 计算 模型 ,简单 的 编程 接口 ,还 要 考虑 可 扩展 性 和 容错 能 力 。 
作为 大 数据 处 理 的 框架 ,需要 有 高 效 .可靠 的 输入 输出 (I/O) ,满足 数据 实时 处 理 的 需求 ， 
如 图 1-9 所 示 。 

目前 ,在 大 数据 处 理 领 域 形 成 了 以 Hadoop, Spark 等 为 代表 的 大 数据 生态 圈 。 
Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 (图 1-10) 。 用 户 可 以 在 
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Shark, Presto, BlinkDB, Dryad Druid, Piot Storm, Samza, Spark Streaming 
批 处 理 (Batch) 计算 框架 迭代 式 (lterative) 
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不 了 解 分 布 式 底 层 细节 的 情况 下 ,开发 分 布 式 程序 ,充分 利用 集群 的 威力 进行 高 速 运 
算 和 存储 。Hadoop 的 框架 最 核心 的 设计 就 是 HDFS 和 MapReduce, HDFS 为 海量 的 
数据 提供 了 存储 ,而 MapReduce 为 海量 的 数据 提供 了 计算 。Hadoop 正式 诞生 于 2006 
年 1 月 28 日 ,是 多 个 开源 项 目的 生态 系统 ,从 根本 上 改变 了 企业 存储 、 处 理 和 分 析 数 据 
的 方式 。 与 传统 系统 的 区 别 是 : Hadoop 可 以 在 相同 的 数据 上 同时 运行 不 同类 型 的 分 


析 工 作 。 


Hadoop 大 数据 生态 圈 ( 或 者 泛 生 态 圈 ) 基 本 上 是 为 了 处 理 超 过 单机 尺度 的 数据 处 理 
而 诞生 的 。 可 以 把 它 比 作 一 个 厨房 工具 生态 圈 , 做 饭 所 需要 的 各 种 锅 碗 车 盆 等 工具 各 有 


图 1-9 大 数据 处 理 关 键 架 构 
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图 1-10 Hadoop 生态 现状 


各 的 用 处 ,互相 之 间 还 有 重合 。 当 然 , 可 以 用 汤锅 直接 当 碗 吃饭 喝 汤 ,也 可 以 用 小 刀 或 者 
人 刨 子 去 皮 。 但 是 每 个 工具 又 有 自己 的 特性 ,虽然 奇怪 的 组 合 也 能 工作 ,但 是 未 必 是 最 佳 选 
择 。 表 1-3 列举 了 目前 主流 的 大 数据 工具 或 组 件 。 


组 ” 件 


表 1-3 大 数据 核心 生态 组 件 概 览 表 
J 能 





Apache ZooKeeper 


分 布 式 、 开 源 的 协调 服务 。 主 要 用 来 解决 多 个 分 布 式 应 用 遇 到 的 互 斥 协 作 与 通 
信和 问题 ,大 大 简化 分 布 式 应 用 协调 及 其 管理 的 难度 





Apache HBase 


分 布 式 存储 系统 ( 列 数 据 库 ) 。 高 可 靠 性 ,高 性 能 ,面向 列 , 可 伸缩 。 可 在 廉价 PC 
Server 上 搭建 大 规模 结构 化 存储 集群 





Apache Pig 


基于 Hadoop 的 大 规模 数据 分 析 工 具 。 提 供 类 SQL 类 型 语言 ,该 语言 的 编译 器 
会 把 用 户 写 好 的 Pig 型 类 SQL 脚本 转换 为 一 系列 经 过 优化 的 MR 操作 并 负责 
向 集群 提交 任务 





Apache Hive 


基于 Hadoop 的 一 个 数据 仓库 工具 。 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 
表 , 通 过 类 SQL 语句 快速 实现 简单 的 MR 统计 ,适合 数据 仓库 的 统计 分 析 





Apache Oozie 


工作 流 引擎 服务 。 用 于 管理 和 协调 运行 在 Hadoop 平台 上 各 种 类 型 任务 
CHDFS, Pig, MR, Shell, Java 等 ) 





Apache Flume 


分 布 式 日 志 数据 聚合 与 传输 工具 。 可 用 于 日 志 数据 收集 .处理 和 传输 ,功能 类 
WF Chukwa, 但 比 Chukwa 更 小 巧 实用 





Apache Mahout 


基于 Hadoop 的 分 布 式 程序 库 。 提 供 了 大 量 机 器 学 习 算 法 的 MR 实现 ,并 提供 
了 一 系列 工具 ,简化 了 从 建 模 到 测试 的 流程 





数据 相互 转移 的 工具 。 将 一 个 关系 型 数据 库 (MySQL、Oracle、Postgres 等 ) 中 的 








Apache Sqoop | 数据 导入 Hadoop 的 HDFS 中 ,也 可 以 将 HDFS 的 数据 导入 关系 型 数据 库 中 

Apache Cassandra | 一 大 开源 分 布 式 NoSQL 数据 库 系统 。 用 于 存储 简单 格式 数据 , 集 Google 
p BigTable 的 数据 模型 与 Amazon Dynamo 的 完全 分 布 式 的 架构 于 一 身 

F 数据 序列 化 系统 。 用 于 大 批量 数据 实时 动态 交换 , 它 是 新 的 数据 序列 化 与 传输 
pache Avro 


工具 ,可 能 会 逐步 取代 Hadoop 原 有 的 RPC 机 制 





Apache Ambari 


Hadoop 及 其 组 件 的 Web 工具 。 提 供 Hadoop 集群 的 部 署 、 管 理 和 监控 等 功能 ， 
为 运 维 人 员 管 理 Hadoop 集群 提供 了 强大 的 Web 界面 





Apache Chukwa 





分 布 式 的 数据 收集 与 传输 系统 。 可 以 将 各 种 各 样 类 型 的 数据 收集 并 导 
入 Hadoop 
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A ” 件 功 能 


基于 HDFS 的 BSP 并 行 计算 框架 。 可 用 于 包括 图 ,矩阵 和 网 络 算法 在 内 的 大 规 
模 、 大 数据 计算 


基于 Hadoop 的 分 布 式 选 代 图 处 理 系 统 。 灵 感 来 自 BSP (Bulk Synchronous 
Parallel) 和 Google 的 Pregel 


基于 Google 的 FlumeJava 库 编 写 的 Java 库 。 用 于 创建 MR 程序 ,与 Hive, Pig 
Apache Crunch 类 似 ,Crunch $2 Ht T FAP Se Be AN E Be BE TA ATR A HET ik R E LAE HB 
模式 库 


一 套 运行 于 云 服务 的 类 库 。 提 供 高 度 的 互补 性 , Whirr 支持 Amazon EC2 和 
Rackspace 服务 


针对 Hadoop 及 其 周边 组 件 的 打包 ,分 发 和 测试 工具 。 解 决 组 件 间 版 本 依赖 、 冲 
突 问题 ,实际 上 当 用 户 用 rpm 或 yum 方式 部 署 时 ,脚本 内 部 会 用 到 它 


基于 Hadoop 的 数据 表 和 存储 管理 工具 。 可 用 于 管理 HDFS 元 数据 , 它 跨越 
Hadoop 和 RDBMS, 可 以 利用 Pig 和 Hive 提供 关系 视图 


Hadoop 及 其 生态 圈 组 件 的 Web 编辑 工具 。 实 现 对 HDFS、 Yarn, MapReduce, 
Hbase, Hive, Pig 等 的 Web 化 操作 


大 数据 实时 计算 平台 。 一 套 专门 用 于 事件 流 处 理 的 分 布 式 计算 框架 ,有 很 多 适 
Apache Storm 用 场景 : 实时 分 析 、 在 线 机 器 学 习 、 连 续 计 算 、 分 布 式 RPC、 分 布 式 ETL, AT 
展 、 支 持 容错 


大 数据 内 存 计算 平台 。 一 个 基于 内 存 的 开源 计算 框架 ,克服 了 MR 模型 的 缺 
Apache Spark 陷 , 能 在 多 场景 处 理 大 规模 数据 ,基于 内 存 的 抽象 数据 类 型 RDD 处 理 速度 是 
Hadoop 的 几 十 倍 
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近年 来 最 火 的 大 数据 平台 Spark 2009 年 诞生 于 伯克利 大 学 AMPLab, 最 初 属 于 伯克利 
大 学 的 研究 性 项 目 。 它 于 2010 年 正式 开源 ,并 于 2013 年 成 为 了 Apache 基金 项 目 ,2014 年 
成 为 Apache 基金 的 顶级 项 目 , 整 个 过 程 不 到 五 年 时 间 。Spark 提供 的 基于 RDD 的 一 体 化 解 
决 方案 ,将 MapReduce, Streaming, SQL, Machine Learning, Graph Processing 等 模型 统一 到 一 
个 平台 上 ,以 一 致 的 API 公开 ,并 提供 相同 的 部 署 方案 ,使 得 Spark 的 工程 应 用 领域 变 得 更 
加 广泛 。 从 2013 年 6 月 到 2014 年 6 月 ,参与 贡献 的 开发 人 员 从 原来 的 68 位 增长 到 255 位 ， 
参与 贡献 的 公司 也 从 17 家 上 升 到 50 家 ,包括 来 自 中 国 的 阿里 、 百 度 、 网 易 、 腾 讯 .搜狐 等 知 
名 互联 网 公司 (图 1-11)。 自 2013 年 起 ,Spark 峰会 每 年 聚集 全 球 数 千 名 科学 家 、 研 发 工程 
师 ,数据 分 析 师 等 共同 探讨 .分享 最 新 的 研究 成 果 和 工业 应 用 。 

“ 工 和 欲 善 其 事 , 必 先 利 其 器 ”, 从 大 数据 生态 圈 再 回 到 我 们 的 厨房 生态 圈 。 为 了 做 不 
同 的 菜 一 一 中 国 菜 , 日 本 菜 , 法 国 菜 .你 需要 各 种 不 同 的 工具 。 而 且 , 客 人 的 需求 正在 复杂 
化 ,即使 厨具 不 断 被 发 明 , 也 没有 一 个 万 用 的 厨具 可 以 处 理 所 有 情况 ,因此 厨具 会 变 得 越 
来 越 复杂 。 因 此 ,在 面 对 任何 一 个 大 数据 应 用 场景 时 ,你 首先 想到 的 不 应 该 是 用 什么 工 
具 , 而 是 用 什么 框架 。 如 表 1-4 所 示 , 在 对 应 用 场景 和 需求 均 明确 的 情况 下 ,才能 选择 整 
体 最 优 的 系统 框架 和 解决 方案 。 
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图 1-11 Spark 全 球 影响 力 


表 1-4 典型 大 数据 计算 框架 对 比 






































计算 框架 S 容错 性 特点 适用 场景 
Sian P mammam | SEENEN XEM Lor 分析、 
E z RDD 的 Lineage | 内 存 计算 通用 性 好 ,更 适 AIE RO W EE 
保证 合 选 代 式 任务 务 、 机 器 学 习 
针对 Join 进行 了 优化 , 充 
Dryad am | 任务 出 错 重 做 | 许 动态 优化 调度 逻辑 ( 修 | BRE Is M 
改 DAG 拓扑 ) 
GraphLab am | 检查 点 技术 。 | ERO 算 专用 | 机 器 学 习 、 大 图 计算 
Worker 重启 或 | 通用 性 好 ,消息 传递 可 | 、 
高 分 配 到 新 机 器 ，| 靠 ,支持 热 部 团 , 主 节点 | BOER TREA 
任务 重 做 可 靠 性 关 
部 分 容错 ,检查 | 通用 性 较 好 ,通信 在 TCP | 实时 广告 推荐 .容忍 
st 高 nl 和 UDP 之 间 权衡 ,持久 | Se 
a 化 方式 简单 
Sinn 高 任务 出 错 重 做。 | eRe EAL rd sd 
RDD 和 预 写 日 | 通用 性 好 , SME. 通 
Spark Streaming | 并 志 (Write Ahead | 过 设置 短 时 间 片 实现 实 | Aia AEB TR 
Logs) 时 ,应 用 较为 局 限 





1.4.2 大 数据 挖 握 处理 基 本 流程 


大 数据 时 代 , 数 据 的 处 理 与 传统 的 处 理 方式 有 着 显著 的 不 同 : 更 注重 全 体 数据 的 处 
理 而 非 抽样 数据 ,更 注重 处 理 的 效率 而 非 绝 对 精度 。 一 个 通用 的 大 数据 处 理 流程 ,可 以 概 
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括 为 以 下 几 个 步骤 。 
1. 数据 采集 


大 数据 的 采集 是 指 接收 来 自 客户 端 (Web、App 或 者 传感器 形式 等 ) 的 数据 ,并 且 用 
户 可 以 对 这 些 数 据 进行 简单 的 查询 和 处 理工 作 。 在 大 数据 的 采集 过 程 中 ,其 主要 特点 和 
挑战 是 并 发 数 高 ,因为 同时 可 能 会 有 成 千 上 万 的 用 户 来 进行 访问 和 操作 ,比如 每 年 春运 期 
间 的 12306 火车 票 售票 网 站 和 * 双 11” 期 间 的 天 猫 商城 ,它们 并 发 的 访问 量 在 峰值 时 达到 
上 百 万 甚至 更 高 ,所 以 需要 在 采集 端 部 署 大 量 数据 库 才 能 支撑 。 代 表 工 具 包 括 Flume, 
Kafka 等 。 


2. 数据 存储 


互联 网 的 数据 "大 ”是 不 争 的 事实 。 目 前 除了 互联 网 企业 外 ,数据 处 理 领域 还 是 传统 
关系 型 数据 库 管理 系统 (RDBMS) 的 天 下 。 随 着 互联 网 的 出 现 和 快速 发 展 ,尤其 是 移动 互 
联网 的 发 展 ,加 上 数码 设备 的 大 规模 使 用 ,今天 数据 的 主要 来 源 已 经 不 是 人 机 会 话 了 ,而 
是 通过 设备 、 服 务 器 、 应 用 自动 产生 的 。 传 统 行 业 的 数据 同时 也 多 起 来 了 ,这 些 数据 以 非 
结构 、 半 结构 化 为 主 , 而 真正 的 交易 数据 量 并 不 大 ,增长 并 不 快 。 机 器 产生 的 数据 正在 以 
几何 级 数 增长 ,比如 基因 数据 、 各 种 用 户 行为 数据 、 定 位 数据 ,图 片 、 视 频 、 气 象 , 地 震 、 医 疗 
数据 等 。 近 年 来 ,通过 扩展 和 封装 Hadoop 来 实现 对 互联 网 大 数据 存储 ,分 析 的 技术 越 来 
越 成 熟 。 对 于 非 结构 , 半 结 构 化 数据 处 理 、 复 杂 的 ETL 流程 复杂 的 数据 挖掘 和 计算 模型 
大 数据 的 内 容 是 多 样 的。 代表 工具 包括 HDFS 文件 系统 .HBase 列 数 据 库 等 。 


3. ETL 


在 数据 采集 时 ,要 对 这 些 海量 数据 进行 有 效 的 分 析 , 还 要 将 这 些 来 自前 端的 数据 导入 
到 一 个 集中 的 大 型 数据 库 ,或 者 分 布 式 存储 集群 ,并 且 在 此 基础 上 做 一 些 简单 的 清洗 和 预 
处 理工 作 。 大 数据 时 代 的 ETL 面临 的 挑战 ,主要 是 导入 的 数据 量 大 ,每 秒 的 导入 量 经 常 
会 达到 百 兆 字 节 甚至 千 兆 字 节 级 别 。 另 一 方面 ,在 大 数据 平台 完成 计算 、 分 析 和 挖掘 后 ， 
生成 的 结果 通常 是 比较 小 的 ,为 了 做 可 视 化 展示 或 与 其 他 业务 系统 交互 ,可 能 需要 将 其 再 
导入 到 关系 型 数据 库 中 。 典 型 的 ETL 工具 包括 Sqoop,DataX 等 ,可 以 满足 不 同 平台 的 
数据 清洗 、 导 入 导出 等 需求 。 


4. 数据 计算 


大 数据 计算 主要 体现 在 数据 的 快速 统计 与 分 析 上 。 统 计 与 分 析 主 要 利用 分 布 式 数据 
库 或 者 分 布 式 计算 集群 来 对 存储 于 其 内 的 海量 数据 进行 普通 的 分 析 和 分 类 汇总 等 ,以 满 
足 大 多 数 常见 的 分 析 需 求 。 常 见 的 工具 包括 MapReduce 分 布 式 并 行 计算 框架 、Spark 内 
存 计 算 模型 .Impala 大 数据 交互 查询 分 析 框 架 等 。 


5. 数 据 分 析 与 挖 气 
大 数据 的 数据 挖掘 与 传统 的 数据 挖掘 方法 也 存在 一 定 的 差异 。 首 先 ,在 大 数据 平台 
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下 ,数据 的 体 量 对 挖掘 的 时 效 性 提出 了 更 高 的 要 求 。 其 次 ,数据 的 体 量 和 多 样 性 对 模型 的 
绝对 计算 精度 要 求 降低 ,可 以 通过 相对 计算 精度 的 提升 在 全 样 数据 上 获得 更 好 的 计算 精 
度 。 最 后 ,大 数据 平台 下 的 数据 挖掘 可 以 没有 什么 预先 设 定好 的 主题 ,主要 是 在 现 有 数据 
上 面 进行 基于 各 种 算法 的 计算 ,从 而 起 到 预测 的 效果 ,实现 一 些 高 级 别 数据 分 析 的 需求 。 
常用 的 工具 包括 Mahout、MLlib 等 数据 挖掘 和 机 器 学 习 工 具 。 


6. 数据 可 视 化 


对 于 数据 分 析 , 最 困难 的 一 部 分 就 是 数据 展示 ,解读 数据 之 间 的 关系 ,清晰 有 效 地 传 
达 并 且 沟 通 数 据 信息 。 大 数据 可 视 分 析 旨 在 利用 计算 机 自动 化 分 析 能 力 的 同时 ,充分 挖 
所 人 对 于 可 视 化 信息 的 认 知 能 力 优势 ,将 人 、 机 各 自 的 强项 有 机 融合 .借助 人 机 交互 式 分 
析 方 法 和 交互 技术 ,辅助 人 们 更 为 直观 和 高 效 地 洞悉 大 数据 背后 的 信息 、 知 识 与 智慧 中 。 
大 数据 时 代数 据 的 来 源 众多 , 且 多 来 自 异 构 环境 。 即 使 获得 数据 源 , 得 到 的 数据 的 完整 
性 ,一 致 性 \ 准 确 性 都 难以 保证 ,数据 质量 的 不 确定 性 问题 将 直接 影响 可 视 分 析 的 科学 性 
和 准确 性 。 数 据 可 视 化 已 经 融入 到 大 数据 分 析 处 理 的 全 过 程 当中 ,逐渐 形成 了 基于 数据 
特点 、 面 向 数据 处 理 过 程 、 针 对 数据 分 析 结 果 等 多 方面 的 大 数据 可 视 分 析 理 论 中 。 上 典型 的 
可 视 化 工具 或 组 件 包括 D3. js、ECharts 等 。 

大 数据 挖掘 处 理 基 本 流程 及 相应 的 工具 如 表 1-5 所 示 。 


表 1-5 大 数据 挖掘 处 理 基本 流程 























序号 环节 名 称 工具 名 称 
1 数据 采集 Flume, Kafka,Scribe 等 
2 数据 存储 HDFS, HBase.Cassadra 等 
3 ETL Sqoop,DataX 等 
4 数据 计算 MapReduce, Storm, Impala, Tez, Presto, Spark, Spark Streaming 等 
5 数据 分 析 与 挖掘 Mahout, MLlib, Hive, Pig, R 语言 等 
6 数据 可 视 化 D3. js, ECharts 等 








15 大 数据 时 代 “ 互 联网 + ”的 未 来 : 智能 互联 


本 节 展 望 大 数据 时 代 “ 互 联网 十 "的 未 来 ,为 读者 介绍 智能 互联 的 发 展 方向 。 

2015 年 3 月 5 日 上 午 ,十 二 届 全 国人 大 三 次 会 议 上 ,李克强 总 理 在 政府 工作 报告 中 
首次 提出 “互联 网 十 ”行动 计划 。“ 互 联网 十 ”代表 一 种 新 的 经 济 形态 , 即 充分 发 挥 互联 网 
在 生产 要 素 配 置 中 的 优化 和 集成 作用 ,将 互联 网 的 创新 成 果 深 度 融 合 于 经 济 社会 各 领域 
之 中 ,提升 实体 经 济 的 创新 力 和 生产 力 ,形成 更 广泛 的 以 互联 网 为 基础 设施 和 实现 工具 的 
经 济 发 展 新 形态 。“ 互 联网 十 ”行动 计划 重点 促进 以 云 计算 、 物 联网 、 大 数据 为 代表 的 新 一 
代 信 息 技术 与 现代 制造 业 、 生 产 性 服务 业 等 的 融合 创新 ,发 展 壮大 新 兴业 态 , 打 造 新 的 产 
业 增 长 点 ,为 大 众 创业 、 万 众 创 新 提供 环境 ,为 产业 智能 化 提供 支撑 ,增强 新 的 经 济 发 展 动 
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力 ,促进 国民 经 济 提 质 增 效 升级 。 

在 该 行动 计划 发 布 后 ,各 方 纷纷 做 出 了 积极 响应 ,并 结合 各 个 应 用 领域 进行 了 深度 
解读 。 其 中 ,《 中 国 新 闻 周 刊 ) 对 “互联 网 十 ”做 出 了 深度 解读 ,认为 “互联 网 十 ”可 以 看 
成 是 蒸汽 机 、 电 和 互联 网 之 后 的 又 一 次 社会 革命 。 蒸 汽机 、 电 和 互联 网 引发 了 人 类 社 
会 的 三 次 工业 革命 。“ 互 联网 十 "也 将 导致 新 的 一 次 工业 革命 。“ 互 联网 十 ”这样 一 个 
深度 互联 的 方式 影响 到 社会 的 方方面面 。 例 如 政务 民生、 交通 、 教 育 ` 医 疗 ` 金 融 、 媒 
体 和 汽车 等 各 行 各 业 都 能 够 通过 “互联 网 十 ”实现 行业 上 网 。 大 数据 是 颠覆 性 的 技术 ， 
会 使 很 多 产业 受到 影响 ,上 一 次 颠覆 性 技术 出 现 的 时 候 是 互联 网 的 时 代 , 当 时 对 各 个 
行业 都 产生 了 影响 ,受到 互联 网 冲击 最 大 的 就 是 零售 业 ,在 美国 就 是 亚马逊 和 易 贝 。 
在 “互联 网 十 "和 人 工 智能 蓬勃 发 展 的 今天 ,我 们 面临 新 的 机 遇 与 挑战 ,结合 大 数据 智 
能 分 析 技 术 的 应 用 和 案例 遍地 开花 : 

。 互联 网 十 政务 。 截 至 2014 年 底 , 各 级 政府 已 经 在 微 信 上 开通 了 近 2 万 个 公众 账 

号 ,面向 社会 提供 各 类 服务 ;武汉 交警 通过 微 信 服务 号 可 在 60 秒 内 完成 罚款 收 
取 , 此 项 功能 全 年 可 为 武汉 驾驶 员 窗 口 缴 罚 节省 时 间 达 140 万 小 时 ,节约 警力 300 
Ao 2016 年 12 H 29 日 ,广州 市 国家 税务 局 .广州 市 地 方 税务 局 与 腾讯 公司 签署 
了 “互联 网 十 税务 "合作 备忘录 ,在 互联 网 十 办 税 服务 、 互 联网 十 电子 发 票 、 互 联 
网 十 数据 应 用 、 互 联网 十 税 企 共 治 、 互 联网 十 征管 改革 等 多 领域 展开 合作 。“ 广 州 
税务 企业 号 ”也 于 当天 正式 上 线 。 这 是 全 国 首 个 “互联 网 十 税务 "应 用 案例 ,广州 
成 为 全 国 第 一 个 实现 国 、 地 税 线 上 业务 合并 的 试点 城市 。 

。 互联 网 十 民生 。 已 经 有 91 万 广州 市 民 通 过 微 信 上 的 “城市 服务 ”入 口 获 得 医疗 、 
交管 ,交通 、 公 安 户 政 、 出 入 境 \ 缴 费 、 教 育 、 公 积 金 等 17 项 民生 服务 。 除 广州 外 ， 
深圳 和 佛山 也 已 成 为 微 信 智慧 城市 ,武汉 和 上 海 也 将 马上 加 入 。 

。 互联 网 十 交通 。 滴 滴 打 车 等 打车 软件 服务 的 出 现 , 创 造 了 12.1% 的 就 业 新 机 会 。 
96.5% 的 司机 在 从 事 专车 服务 以 后 每 月 收入 有 所 提升 ,其 中 ,39. 5% 的 司机 有 
30% 以 上 的 收入 提升 。2016 年 7 月 28 日 《网 络 预 约 出 租 汽车 经 营 服务 管理 暂行 
办 法 ) 出 台 , 以 互联 网 技术 为 依托 构建 服务 平台 , 接 入 符合 条 件 的 车 辆 和 驾驶 员 ， 
通过 整合 供需 信息 ,提供 非 巡 游 的 预约 出 租 汽车 服务 。 该 办 法 规范 了 网 约 车 市 
场 ,借助 “互联 网 十 "和 大 数据 手段 帮助 乘客 和 司机 进行 有 效 匹配 ,避免 了 空 驶 和 
疲劳 驾驶 , 既 方便 了 人 们 用 车 ,又 保护 了 环境 。 

。 互 联网 十 教育 。 以 菜 课 、 翻 转 课堂 等 为 手段 的 在 线 教育 ,有 助 于 改善 教育 资源 分 
配 不 均等 现状 ,让 每 个 人 以 更 低 成 本 获得 更 适合 自己 的 学 习 资 源 。 目 前 ,腾讯 已 
与 超过 5000 家 教育 机 构 合 作 开设 腾讯 课堂 ,面向 中 小 学 大学、 职业 教育 .IT 培 
训 等 多 层次 人 群 开放 。 每 周 上 课 人 数 超过 7 万 人 ,课程 总 数 达 3 万 多 门 。 

”互联 网 十 医疗 。 截 至 2016 年 12 月 , 微 信 公众 平台 上 完成 认证 的 医院 公众 号 接近 
2 万 个 , 近 1 亿 患 者 通过 微 信 公众 号 获取 专业 的 医疗 服务 和 资讯 ;国内 1200 多 家 
三 甲 医院 中 ,超过 80% 都 开通 了 微 信 公众 号 ,60% 开 通 了 就 诊 服务 ;通过 微 信 支 
付 ,全 国 数 千家 医院 每 天 为 近 50 万 患者 提供 便捷 的 支付 服务 ,节约 排队 等 候 时 
间 ;腾讯 在 线 挂号 服务 平台 已 覆盖 了 全 国 156 个 城市 的 1443 家 医院 。 
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。 互联 网 十 金融 。2016 年 1 月 初 , 全 国 首 家 互联 网 银行 “ 微 众 银行 "开业 ,李克强 总 
HF LAR. RE ALARA RS BT 3.5 万 元 贷款 。2016 Æ 12 月 22 日 ,中 信 
银行 在 京 隆重 发 布 金融 同业 合作 互联 网 服务 平台 “中 信和 同业 十 ”。 

。 互联 网 十 媒体 。2015 年 春晚 微 信 * 摇 一 摇 ? 送 出 5 亿 元 红包 ,全 球 185 个 国家 的 用 
PRET 110 亿 次 ,最 高 峰 时 一 分 钟 有 8. LAL EH ED o 

。 互联 网 十 汽车 。 业 界 估计 ,到 2020 年 ,全 球 75% 的 汽车 ,也 就 是 9200 万 辆 汽车 都 
将 能 够 接 入 互联 网 的 硬件 设备 。 腾 讯 推 出 的 车 载 智能 硬件 “路 宝 ” 盒 子 不仅 可 以 
提供 实时 路 况 ,街景 ,测评 驾驶 ,还 可 以 对 故障 进行 智能 检测 。 

“互联 网 十 ”跨行 业 、 跨 领域 的 深度 互联 将 会 是 未 来 发 展 的 一 个 热点 ,我们 暂且 称 之 为 
“互联 网 十 十 ”, 其 中 工业 物 联 网 和 工业 4.0 受到 了 人 们 的 广泛 关注 。 工 业 互 联网 是 将 互 
联网 中 人 与 人 之 间 的 沟通 延续 到 人 与 机 器 的 沟通 以 及 机 器 与 机 器 之 间 的 沟通 。 工 业 4.0 
实现 了 在 三 元 空间 中 人 、 机 器 和 信息 之 间 的 相互 连接 ,其 中 包括 三 个 层次 : 一 是 智能 工 
厂 , 这 是 一 个 实体 .静态 的 概念 ;二 是 智能 生产 ,这 是 工厂 内 部 生产 管理 的 一 个 过 程 ; 三 是 
智能 物流 ,实现 了 智能 工厂 之 间 的 互联 。 

。 从 计算 机 发 展 史 来 看 “互联 网 十 十 ”, 首 先 经 历 了 单 台 计算 机 阶段 ,通过 通信 实现 

计算 机 之 间 连 接 的 初级 互联 阶段 ,然后 通过 联网 上 线 迈 入 了 互联 网 时 代 。 近 年 
来 , 随 着 人 机 交互 的 发 展 , 人 的 活动 更 多 、 更 深入 地 介入 整个 互联 网 计算 系统 之 
中 ,也 就 有 了 现在 的 云 计算 时 代 。 
从 工业 发 展 史 来 看 “互联 网 十 十 ”传统 工业 通过 计算 机 通信 实现 了 工业 信息 化 ， 
通过 实体 经 济 上 网 .O20O 等 实现 了 工业 信息 化 到 智能 工厂 的 转变 。 这 些 智 能 工 
厂 在 网 络 上 互联 之 后 ,它们 的 交互 可 能 带 来 更 进一步 的 深度 互联 。 这 时 候 ,管理 、 
生产 和 服务 都 是 一 种 在 未 来 智能 互联 的 网 络 上 的 行为 。 未 来 社会 生产 方式 的 发 
展 与 计算 机 互联 计算 的 发 展 有 着 结构 上 的 相似 性 。 

云 计算 ,大 数据 “互联 网 十 ?究竟 能 够 带 来 社会 上 多 大 的 变革 呢 ? 我 们 来 看 一 看 “1 十 
1 远大 于 2” 的 经 典 案例 : 在 20 世纪 60 年 代 , 美 国政 府 提出 了 * 中 央 数 据 银行 ”计划 。 这 
个 计划 旨 在 以 公民 为 单位 ,为 每 人 建立 一 个 数据 档案 ,包括 其 教育 .医疗 .福利 .犯罪 .纳税 
等 各 个 方面 的 数据 记录 。 然 而 ,美国 国会 并 没有 批准 这 一 计划 。 为 什么 ? 因为 这 些 数据 
分 散在 每 一 个 行业 ,每 一 个 部 门 ,还 是 一 个 个 的 数据 孤岛 , 它 的 价值 没有 那么 大 ,但 是 一 旦 
汇聚 在 一 起 就 附加 了 很 大 的 价值 ,在 大 数据 精准 分 析 和 挖掘 面前 ,每 个 公民 就 是 一 个 透明 
人 ,这 些 信 息 或 分 析 结 果 一 旦 泄露 ,将 会 造成 极其 严重 的 后 果 , 无 法 保证 公民 的 隐私 权 。 
在 “9。11? 事 件 之 后 ,美国 政府 在 (国土 安全 法 》 中 重 提 * 中 央 数 据 银行 ?计划 ,而且 提出 了 
一 个 更 为 响亮 的 名 字 : 万 维 信息 触角 计划 (Total Information Awareness) , 旨 在 追踪 恐怖 
分 子 的 “数字 脚印 ”, 以 解决 安全 问题 。 和 1965 年 相 比 ,2002 年 ,人 类 的 计算 模式 已 经 稳 
步 进 入 了 个 人 型 计算 阶段 ,商务 智能 的 各 项 技术 都 已 经 很 成 熟 。 因 此 ,除了 将 数据 联接 、 
集中 到 一 起 ,提高 管理 .查询 和 统计 的 效率 之 外 ,万 维 信息 触角 计划 还 有 了 新 的 内 容 一 一 
数据 挖掘 ,将 挖掘 出 的 信息 转化 为 知识 并 付 诸 行 动 。 万 维 信息 触角 计划 公开 之 后 ,引起 了 
隐私 、 民 权 保 护 团 体 的 强烈 反响 。 美 国 国会 最 终 终 止 了 这 一 计划 ,理由 是 万 维 信息 触角 计 
划 就 像 原 子弹 一 样 可 以 改变 世界 。 也 就 是 说 ,如 果 把 不 同方 面 的 数据 融合 到 一 起 ,这 一 过 
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程 有 可 能 会 带 来 像 原 子 核 聚 变 一 样 的 效果 。 万 维 信息 触角 计划 被 终止 了 ,但 是 这 方面 的 
研究 工作 却 没 有 停止 。 

再 看 一 看 智能 互联 的 聚变 效应 。 首 先是 传统 的 互联 ,有 一 句 话 对 互联 有 一 个 很 形象 
的 说 明 : 要 致富 先 修 路 。 以 前 修 的 是 公路 ,现在 要 修 的 是 网 络 、 光 纤 道 路 ,是 在 科技 上 的 
互联 。 多 学 科 的 交叉 成 为 当前 创新 的 源泉 。 自 然 界 中 有 广泛 的 互联 ,有 各 种 各 样 互联 的 
群体 ,如 蚁 群 、 蜂 群 、 狼 群 。 一 只 狼 不 可 怕 , 如 果 有 一 群 狼 , 战 斗 力 就 变 得 很 可 怕 。 云 计算 
和 大 数据 所 带 来 的 互联 是 信息 系统 之 间 的 互联 ,物理 空间 与 信息 系统 的 互联 ,以 及 在 三 元 
空间 中 人 与 人 、 人 与 信息 系统 、 人 与 物理 环境 以 及 人 与 物理 环境 和 信息 系统 之 间 深 度 的 、 
广泛 的 互联 。 
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本 书 共 11 章 , 除 第 11 章 以 外 ,全 书 内 容 可 以 分 成 3 个 部 分 ,整体 篇 章 架 构 如 图 1-12 
所 示 。 第 1 部 分 是 大 数据 挖掘 与 应 用 的 导论 部 分 。 首 先 展现 了 在 大 数据 挖掘 和 分 析 中 对 
各 种 各 样 的 应 用 进行 有 效 数 据 模 式 发 现 的 方法 ,介绍 了 有 效 的 和 应 用 广泛 的 大 数据 分 析 
工具 的 技术 和 分 布 式 并 行 计算 平台 ,同时 对 数据 挖掘 的 基本 概念 和 发 现 知识 的 模式 类 型 
技术 进行 了 概要 介绍 ;其 次 ,由 于 好 的 分 析 结 果 必 须 由 数据 质量 决定 ,因此 从 数据 的 类 型 
人 入手 ,说 明了 保证 数据 质量 的 数据 准备 和 预 处 理 方法 ;最 后 详细 介绍 了 一 些 普 通常 用 的 可 
视 化 技术 ,为 进一步 可 视 化 展现 海量 数据 中 隐藏 的 现象 提供 了 帮助 。 第 2 部 分 为 大 数据 
挖掘 常用 方法 的 介绍 ,包括 关联 分 析 方 法 、 分 类 方法 、 聚 类 方法 深度 学 习 , 以 及 目前 流行 
的 用 于 大 数据 分 析 的 R 语言 基本 知识 和 编程 方法 介绍 。 第 3 部 分 是 进 阶 应 用 部 分 ,分 别 
探讨 了 目前 最 有 代表 性 的 大 数据 分 布 式 存储 与 并 行 计算 的 软件 框架 Apache Hadoop 的 
编程 基础 .基于 Apache Storm 的 分 布 式 实时 计算 方法 和 基于 Spark Streaming 的 分 布 式 
实时 计算 的 基本 技术 ,同时 对 并 行 计算 算法 的 基本 知识 和 概念 做 了 介绍 ,通过 3 个 完整 的 
实际 案例 给 出 了 MapReduce 平台 下 数据 分 析 的 具体 方法 和 步骤 ,使 大 家 能 够 亲身 感受 在 
大 数据 平台 下 进行 完整 数据 分 析 的 过 程 。 
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人 类 正在 迈 入 后 信息 时 代 的 “三 元 空间 世界。 信息 (数据 ) 成 为 物质 和 能 量 之 外 的 新 
资源 。 云 计算 是 新 生产 力 工具 , 谁 先 掌握 并 运用 好 了 , 谁 就 在 社会 经 济 的 发 展 中 率先 拥有 
了 主动 权 。 通 过 本 章 的 学 习 , 和 希望 为 读者 在 云 计算 、 人 工 智能 背景 下 的 大 数据 智能 分 析 处 
理 领 域 打 开 一 扇 窗户 ,从 宏观 世界 ,现实 社会 .基础 理论 和 技术 方法 上 初步 认识 大 数据 智 
能 分 析 与 处 理 。 


MapReduce 计算 框架 的 计算 效率 低 ,任务 出 错 需要 重 做 ,编程 接口 简单 ,计算 模型 
受 限 ,适用 场景 包括 文本 处 理 、Log 分 析 、 机 器 学 习 。 

Spark 计算 框架 的 计算 效率 高 ,基于 RDD 的 Lineage 实现 容错 ,内 存 计算 通用 性 
好 ,更 适合 迭代 式 任务 ,适用 场景 包括 迭代 式 离线 分 析 任 务 、 机 器 学 习 。 

Dryad 计算 框架 的 计算 效率 较 高 ,任务 出 错 需 要 重 做 ,针对 Join 进行 了 优化 ,允许 
动态 优化 调度 逻辑 (修改 DAG 拓扑 ) ,适用 场景 包括 机 器 学 习 、 微 软 技术 栈 。 
GraphLab 计算 框架 的 计算 效率 较 高 ,基于 检查 点 技术 实现 容错 ,机 器 学 习 图 计算 
专用 框架 ,适用 场景 包括 机 器 学 习 、 大 图 计算 。 

Storm 计算 框架 的 计算 效率 高 ,基于 Worker 重启 或 分 配 到 新 机 器 实现 容错 ,任务 
出 错时 自动 重 做 ,通用 性 好 ,消息 传递 可 靠 , 支 持 热 部 署 , 主 节点 可 靠 性 差 ,适用 场 
景 包括 通用 的 实时 数据 分 析 人 处理。 

S4 计算 框架 的 计算 效率 高 ,基于 检查 点 技术 实现 部 分 容错 ,通用 性 较 好 ,通信 在 
TCP 和 UDP 之 间 权 衡 ,持久 化 方式 简单 ,适用 场景 包括 实时 广告 推荐 容忍 数据 
BR. 

Samza 计算 框架 的 计算 效率 高 ,任务 出 错 重 做 ,可 扩展 性 好 ,兼容 流 处 理 和 批 处 
理 ,适用 场景 包括 在 线 和 离线 任务 相 结合 的 分 析 与 处 理 。 

Spark Streaming 计算 框架 的 计算 效率 低 , 基 于 RDD 和 预 写 日 志 (Write Ahead 
Logs) 实 现 容错 ,通用 性 好 ,容错 性 好 ,通过 设置 短 时 间 片 实现 实时 处 理 , 但 应 用 较 
受 局 限 ,适用 场景 包括 历史 数据 和 实时 数据 相 结 合 的 分 析 。 


. 大 数据 处 理 的 5V(Volume、Velocity、Variety、Veracity、Value) 特 点 : 其 含义 分 别 








云 计算 是 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 模式 ， 通常 f 涉 及 通过 互联 网 


18 习 题 
1 
是 
2 谷歌 大 数据 技术 的 三 大 法 宝 包括 
3. 
来 提供 且 经 常 是 的 资源 。 


4, 
5. 
6. 


简 述 大 数据 处 理 的 一 般 性 框架 。 
简 述 大 数据 处 理 的 一 般 性 步骤 流程 和 方法 。 
简 述 离线 计算 .迭代 式 计算 和 流 式 计算 的 主要 代表 技术 及 其 特点 。 


27 


ARBRHRH A 





[5] 
[6] 
[7] 
[8] 
[9] 





7. 简 述 图 灵 计 算 和 云 计 算 的 异同 。 
8. 结合 现实 , 谈 谈 你 对 “互联 网 十 ”的 理解 。 
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数据 认 知 与 预 处 理 


直接 从 各 种 设备 或 系统 等 平台 上 采集 的 原始 数据 总 是 来 自 异 种 数据 源 ,往往 有 大 量 
的 噪声 、 离 群 点 和 元 余 存 在 ,大 体 上 来 说 ,这 样 都 是 不 完整 .不一致 的 脏 数 据 , 数 据 质量 太 
差 ,无 法 直接 进行 数据 挖掘 ,或 挖掘 结果 不 如 人 意 。 比 如 遥感 数据 ,可 能 是 同时 获取 于 几 
颗 不 同 分 辨 率 的 卫星 图 像 , 还 可 能 包含 多 个 时 间 点 采集 的 数据 ,因此 它 具有 多 源 性 ,而 每 
一 个 源 的 数据 格式 和 表示 都 不 相同 。 再 比如 进行 网 络 人 侵 检测 的 判断 ,要 想 判断 某 一 个 
HTTP 请 求 是 正常 的 还 是 恶意 的 ,势必 首先 要 把 这 些 数 据 抓 取 下 来 。 这 一 步 好 办 ,可 以 
用 一 个 探 针 程序 部 署 在 网 关上 ,把 所 有 经 过 这 个 网 关 的 HTTP 请 求全 部 抓 取 下 来 并 存 
储 , 但 是 程序 抓 取 的 都 是 一 些 乱七八糟 的 字符 ,于 是 首先 要 对 它 进行 解码 ,然后 定义 好 一 
定 的 格式 将 它们 存储 起 来 ,其 实 这 还 远 远 不 够 ,所 获取 的 数据 不 一 定 干净 , 会 有 噪声 ,可 能 
还 会 有 缺失 。 因 此 一 个 完整 的 数据 挖掘 系统 必须 包括 数据 预 处 理 模块 , 它 以 任务 为 导向 ， 
以 专业 知识 为 指导 ,用 全 新 的 “任务 模型 "来 组 织 原始 数据 , 按 弃 一 些 与 挖掘 任务 不 相关 的 
属性 ,填补 缺失 值 ,过 滤 那 些 会 影响 分 析 结 果 的 噪声 点 ,为 数据 挖掘 算法 提供 完整 、 一 致 
准确 有效 的 数据 ,降低 挖掘 计算 涉及 的 数据 处 理 量 ,提高 挖掘 效率 ,高 质量 地 ,准确 地 发 
现 知 识 。 好 的 数据 预 处 理 有 助 于 保证 挖掘 数据 的 正确 性 和 有 效 性 , 另 一 方面 也 能 通过 对 
数据 格式 和 内 容 的 调整 ,使 数据 更 符合 挖掘 的 目标 。 

总 之 ,对 不 理想 的 原始 数据 进行 有 效 的 归纳 和 预 处 理 , 已 经 成 为 数据 挖掘 系统 实现 过 
程 中 的 关键 问题 。 数 据 预 处 理 不 仅 包 含 数 据 清理 ,数据 集成 .数据 变换 ,数据 规约 等 技术 ， 
还 包括 对 数据 进行 统计 描述 ,以 考察 数据 值 的 分 布 情况 ,洞察 数据 的 相似 性 等 ,数据 可 视 
化 也 是 数据 预 处 理 技术 的 一 个 分 支 ,这 部 分 内 容 将 在 第 3 章 进行 介绍 。 这 些 数 据 处 理 技 
术 在 数据 挖掘 之 前 使 用 ,大 大 提高 了 数据 挖掘 模式 的 质量 ,降低 实际 挖掘 所 需要 的 时 间 。 
本 章 首 先 从 什么 是 数据 分 析 入 手 , 给 出 评估 高 质量 数据 的 指标 (2. 1 节 ) ,然后 对 数据 由 什 
么 类 型 的 属性 或 字段 组 成 ,每 个 属性 具有 何 种 类 型 的 数据 值 , 是 离散 属性 还 是 连续 属性 进 
行 描述 (2.2 节 ) ,对 数据 中 心 趋势 和 离散 趋势 的 绘制 方法 进行 分 析 (2. 3 节 )。 度 量 数 据 间 
的 相似 性 是 数据 挖掘 重要 的 基础 理论 之 一 ,本 章 探讨 多 种 评估 相似 性 和 相 异 性 的 方法 
(2.4 节 ), 进 而 考察 数据 挖掘 前 必要 的 数据 清理 ,数据 集成 .数据 归 约 和 数据 变换 方法 
(2.5 节 ), 最 后 介绍 目前 常用 的 一 些 用 于 数据 统计 分 析 和 预 处 理工 具 (2.6 节 ), 并 在 2.7 
节 用 一 个 案例 对 SPSS 工具 的 使 用 基础 进行 介绍 。 
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21 数据 分 析 的 定义 和 流程 


人 们 每 一 次 点 击 鼠 标 ,每 一 次 硕 击 键盘 ,都 可 能 在 万 里 之 外 的 某 台 服务 器 里 产生 一 些 
数据 。 以 前 ,我 们 存储 数据 但 是 并 没有 充分 发 挥 出 数据 的 价值 ,如 今 ,数据 分 析 技 术 的 发 
展 却 使 这 些 数据 变 成 了 潜力 巨大 的 金 矿 。 那么 什么 是 数据 分 析 ? 数据 分 析 (data 
analysis) 是 指 用 适当 的 统计 分 析 方 法 对 收集 来 的 大 量 数据 进行 分 析 和 解释 ,提取 出 有 用 
的 信息 形成 结论 ,从 而 对 数据 加 以 详细 研究 和 概括 总 结 的 过 程 。 数 据 分 析 的 数学 基础 早 
在 20 世纪 初 就 已 确立 ,但 是 直到 计算 机 出 现 才 使 其 实际 操作 成 为 可 能 ,并 使 其 得 以 推广 。 
所 以 ,数据 分 析 是 数学 与 计算 机 科学 相 结合 的 产物 。 数 据 分 析 的 标准 流程 分 为 以 下 几 步 : 
数据 分 析 问 题 的 理解 .相关 数据 的 理解 .相关 数据 的 准备 、 分 析 模 型 的 建立 ,分 析 模 型 的 评 
估 、 分 析 结果 的 部 署 。 

本 节 给 出 数据 分 析 的 定义 和 流程 的 相关 知识 。2. 1. 1 节 将 讨论 如 何 理解 和 描述 数据 
分 析 问 题 ,2. 1. 2 节 讲 解数 据 获取 与 准备 的 相关 知识 ,数据 质量 评估 的 相关 知识 将 在 2. 1. 3 
节 提 供 。 


2.1.1 如 何 理解 和 描述 数据 分 析 的 问题 


下 面 给 出 一 个 有 意思 的 数据 分 析 案 例 。 美 国明 尼 苏 达州 一 家 塔 吉 特 百货 公司 的 门店 
被 客户 投诉 ,一 位 中 年 男子 指控 塔 吉 特 将 婴儿 产品 优惠 券 寄 给 他 的 女儿 一 一 一 个 高 中 生 。 
但 没 多 久 他 却 来 电 道 菊 , 因 为 女儿 经 他 双 问 后 坦承 自己 真 的 怀孕 了 。 塔 吉 特 就 是 靠 着 分 
析 用 户 所 有 的 购物 数据 ,然后 通过 数据 分 析 模 型 的 分 析 评 估 获 取 顾 客 想 要 购买 的 商品 的 
信息 。 类 似 的 案例 多 不 胜 数 ,处 处 都 展现 着 数据 分 析 的 魅力 。 

那么 如 何 理解 和 抽象 出 一 个 待 分 析 的 数据 分 析 问 题 模型 呢 ? 可 以 从 以 下 几 个 方面 进 
行 考察 : 

(1) 理解 待 分 析 的 问题 。 理 解 问题 的 背景 ,确定 待 解决 问题 的 目标 ,制定 该 问题 解决 
成 功 的 标准 。 

(2) 考察 待 分 析 问 题 的 当前 形势 。 确 定 本 问题 所 面临 的 资源 需求 .假设 和 约束 ,探讨 
结果 在 运用 中 可 能 带 来 的 风险 并 制定 应 急 方 案 ,评估 数据 分 析 产 生 的 成 本 和 收益 。 

(3) 确定 待 分 析 问 题 的 数据 分 析 模 型 。 明 确 数 据 分 析 模 型 应 该 取得 的 目标 ,确立 数 
据 分 析 模 型 成 功 的 评价 标准 。 

CA) 制定 实施 该 问题 的 数据 分 析 步 又 。 制 定 并 明确 项 目 实施 计划 ,评估 并 选择 适合 
的 数据 分 析 平台 和 技术 。 

下 面 给 出 一 个 如 何 理解 和 抽象 出 电信 客户 流失 的 数据 分 析 问 题 模型 的 案例 。 在 电 
信行 业 , 客 户 流失 的 意思 是 客户 从 某 家 电信 公司 退出 而 转 到 另 一 家 具有 竞争 关系 的 电 
信人 公司。 在 电信 行业 通常 争取 一 个 新 客户 的 成 本 是 保留 一 个 老 客 户 所 需 成 本 的 5 倍 ， 
如 果 能 使 客户 流失 率 降低 5%% ,企业 利润 可 以 增加 25%% 一 85%% ,因此 在 电信 行业 防止 客 
户 流失 是 企业 极其 重视 的 问题 ,那么 如 何 理解 和 抽象 出 对 客户 流失 进行 数据 分 析 的 问 
题 模型 呢 ? 


222 2PVASARS 


(1) 首先 对 问题 进行 理解 ,例如 什么 是 流失 ,流失 如 何 定义 。 连 续 欠 费 不 缴 、 号 码 长 
期 不 用 等 都 属于 流失 的 范畴 ,数据 分 析 成 功 的 目标 和 标准 就 是 找到 流失 和 哪些 因素 相关 ， 
流失 客户 的 特征 是 什么 。 

(2) 分 析 当前 客户 对 电信 使 用 情况 的 形势 。 确 定 客户 流失 可 能 会 与 顾客 年 龄 性别、 
收入 .职业 ,话费 水 平话 务 质量 等 哪些 因素 有 关 , 显 然 , 如 果 数 据 分 析 结 果 有 效 ,能 够 大 大 
增加 企业 利润 。 

(3) 确定 数据 分 析 模 型 。 要 寻找 那些 流失 量 比 较 大 的 客户 群 ,对 客户 进行 分 析 的 模 
型 应 该 用 什么 ? 这 里 显然 应 该 对 客户 进行 聚 类 分 析 , 将 具有 相同 特征 的 客户 聚 秘 , 从 而 及 
早 发 现 问题 ,避免 客户 流失 。 尤 其 对 那些 流失 性 大 的 高 价值 客户 ,建立 模型 规则 集 和 模型 
评估 方法 ,从 中 选 出 最 优 模型 ,更 有 利于 发 现 那 些 易于 流失 的 客户 群 特征 。 

(4) 制定 实施 电信 客户 流失 数据 分 析 的 计划 ,并 根据 数据 量 的 大 小 确定 数据 分 析 平 
台 和 分 析 算法 。 


2.1.2 数据 获取 与 准备 


俗话 说 “ 巧 妇 难为 无 米 之 炊 ”, 同 样 ,要 进行 数据 分 析 , 当然 先 要 有 数据 。 根 据 不 同 的 
分 析 目 的 ,需要 获取 的 数据 的 种 类 形态 也 不 尽 相同 。 一 般 来 说 ,获取 数据 的 途径 主要 可 
分 为 以 下 几 种 。 


1. 数据 库 


数据 库 (database) 是 数据 分 析 中 最 常见 、 最 丰富 的 数据 源 ,也 是 数据 分 析 中 所 需 数据 
的 最 基本 承载 形式 。 依 据 所 处 理 的 数据 形式 ,数据 库 可 以 分 为 多 种 类 型 : 

(1) 关系 数据 库 (relational database)。 即 采用 关系 模型 作为 数据 组 织 方 式 的 数据 
库 , 其 特点 在 于 它 将 所 有 的 数据 对 象 存储 在 一 个 以 行 和 列 方式 组 织 的 二 维 表 中 。 

(2) 事务 数据 库 (transactional database)。 是 一 种 特殊 的 关系 数据 库 , 其 中 存放 的 每 
个 数据 ( 即 记 录 ) 代 表 不 同 的 交易 事务 ,如 顾客 的 一 次 购物 .一 次 航班 订 票 或 一 次 网 页 点 

(3) 多 媒体 数据 库 (multimedia database) 。 这 种 数据 库 一 般 存 放 图 像 .音频 和 视频 类 
等 数据 。 

(4) 遗留 数据 库 (legacy database)。 是 企业 早期 开发 遗留 下 来 的 数据 ,可 以 是 关系 
型 .面向 对 象 型 或 层次 型 等 的 不 同 异 构 数据 库 。 

数据 库 中 数据 的 来 源 非常 丰富 ,可 以 是 在 互联 网 上 抓 取 的 数据 ,也 可 以 是 通过 各 种 不 
同 传感器 或 其 他 设备 得 到 的 实测 数据 ,还 可 以 是 通过 调查 报告 等 方式 人 工 收集 的 数据 。 


2. 数据 仓库 


数据 仓库 (data warehouse) 是 进行 数据 分 析 最 常用 的 数据 来 源 。 建 立 数据 仓库 的 主 
要 目的 是 为 工商 企业 主管 提供 一 种 分 析 工 具 ,以 便 他 们 能 够 系统 地 组 织 、 理 解 和 使 用 数据 
进行 决策 。 它 和 数据 库 的 主要 不 同 表 现在 操作 方式 和 目的 上 。 对 数据 库 的 操作 称 为 联机 


事务 处 理 (Online Transaction Processing, OLTP), 主 要 功能 是 对 实时 数据 进行 日 常 操 
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作 , 比 如 增加 、 删 除 、 更 新 、 查 询 等 ;而 对 数据 仓库 的 操作 称 为 联机 分 析 处 理 (Online 
Analytical Processing, OLAP) ,主要 功能 是 对 长 期 保存 的 历史 数据 进行 复杂 查询 ,进行 
的 主要 是 读 操作 ,最 终 提供 决策 支持 。 

数据 仓库 中 的 数据 来 源 主要 是 通过 对 大 量 异 构 的 数据 库 中 的 数据 进行 清洗 、 预 处 理 
以 及 转换 等 方法 加 以 集成 ,重新 组 织 到 一 个 语义 一 致 的 数据 存储 中 。 


3. 文 件 


文件 (file) 是 获取 数据 分 析 所 需 数据 的 主要 来 源 , 它 包括 后 组 为 doc、xls、txt 等 的 普 
通 数据 文件 ,从 这 些 文件 中 快速 获取 的 数据 容易 理解 ,但 是 要 处 理 成 与 数据 分 析 中 其 他 数 
据 一 致 的 格式 比较 困难 。 

数据 获取 的 方式 其 实 还 有 很 多 ,这 里 只 介绍 了 常用 的 3 种 方式 ,一 般 往往 需要 根据 实 
际 情 况 来 选择 最 适合 的 方式 。 原 始 数 据 获 取 直 到 可 以 用 来 进行 数据 分 析 , 中 间 还 要 经 过 
几 个 步骤 ,数据 获取 只 是 其 中 的 第 一 步 , 称 为 加 载 (loading) ,还 需要 经 历 清洗 (cleaning) 
和 集成 (integration) ,然后 才能 进行 分 析 。 通 常 只 有 用 来 分 析 的 数据 质量 足够 高 ,才能 保 
证 分 析 结 果 更 有 效 。 那 么 如 何 评价 获得 的 数据 质量 如 何 呢 ? 下 面 介 绍 数据 质量 的 评估 
标准 。 


2.1.3 数据 质量 评估 


获取 的 数据 如 果 能 满足 其 应 用 要 求 ,那么 就 说 它 是 高 质量 的 。 但 是 获取 的 数据 往往 
很 难 达 到 应 用 要 求 。 例 如 ,需要 收集 某 网 站 商品 价格 信息 ,但 是 发 现 有 些 字段 根本 没有 
值 ,我 们 就 说 这 个 数据 是 不 完整 的 。 也 可 能 获取 的 价格 信息 本 身 就 是 错误 的 ,那么 这 个 数 
据 就 是 不 准确 的 。 另 外 ,可 能 获取 的 用 于 商品 分 类 的 编码 存在 差异 ,那么 这 个 数据 是 不 一 
致 的 。 

一 般 来 说 ,准确 性 、 完 整 性 ,一 致 性 .时 效 性 等 指标 是 评价 数据 质量 最 常用 的 标准 。 


1. 准确 性 


准确 性 是 指数 据 记 录 的 信息 是 否 存在 异常 或 错误 。 最 常见 的 数据 准确 性 问题 就 是 乱 
码 , 过 大 和 过 小 的 数据 往往 也 是 不 准确 的 。 数 据 质量 的 准确 性 问题 可 能 存在 于 个 别 记 录 
中 ,也 可 能 存在 于 整个 数据 集中 。 


2. 完整 性 


完整 性 是 指数 据 是 否 存 在 缺失 ,缺失 可 能 是 整个 记录 数据 ,也 可 能 是 记录 数据 中 某 个 
关键 字段 的 缺失 。 不 完整 的 数据 价值 会 大 大 降低 ,因此 ,完整 性 也 是 最 基础 的 数据 质量 评 
估 标 准 。 


3 一 政 性 
一 致 性 是 指数 据 是 否 遵循 了 统一 的 规范 ,数据 集 是 否 保持 统一 的 格式 。 数 据 的 一 臻 
性 主要 体现 在 数据 记录 是 否 规范 和 数据 是 否 符合 逻辑 。 例 如 ,手机 号 码 一 定 是 11 位 ,中 
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关系 ,如 对 网 页 访问 的 PV( 访 问 量 ) 一 定 大 于 等 于 UV( 独 立 访客 量 ) 。 


4. 时 效 性 


时 效 性 是 指数 据 从 产生 到 得 到 分 析 结 果 的 时 间 间 隔 。 如 果 数 据 分 析 周期 加 上 数据 建 
立 的 时 间 间 隔 过 长 ,就 可 能 导致 分 析 结 果 失去 应 有 的 意义 。 


22 数据 类 型 


我 们 获取 的 数据 集 都 由 一 个 一 个 数据 对 象 组 成 ,每 一 个 对 象 都 代表 一 个 实例 。 例 如 
某 人 手机 里 的 通讯 录 数 据 , 其 中 的 每 条 数据 对 象 代表 一 个 人 的 联系 方式 ,而 这 条 联系 方式 
中 有 一 部 分 表示 姓名 ,一 部 分 表示 电话 号 码 , 还 有 一 部 分 表示 这 个 人 的 住址 等 等 。 其 中 ， 
每 一 条 数据 可 以 称 为 数据 集 的 一 个 样本 、 实 例 、 数 据点 或 对 象 。 而 每 一 条 数据 要 用 不 同 特 
征 描 述 出 来 ,特征 也 可 以 称 为 属性 ,如 上 例 中 的 姓名 、 电 话 号 码 ,住址 都 是 描述 数据 用 到 的 
特征 。 如 果 数 据 存放 在 数据 库 中 , 则 行 对 应 于 数据 对 象 , 列 对 应 于 数据 属性 。 

本 节 将 对 属性 进行 定义 ,同时 考察 属性 可 以 具有 的 不 同类 型 。 首 先 对 属性 这 一 概念 
进行 描述 ,然后 分 别 讨论 标 称 属性 、 二 元 属性 、 序 值 属性 以 及 数值 属性 。 


2.2.1 属性 的 定义 


属性 (attribute) 是 一 个 字段 ,表示 数据 对 象 的 一 个 特征 。 对 象 与 属性 是 不 可 分 的 , 没 
有 属性 的 对 象 是 不 存在 的 ,因为 对 象 不 用 属性 来 进行 描述 也 就 不 能 称 之 为 对 象 了 ,而 属性 
如 果 不 用 来 描述 对 象 ,也 就 没有 意义 。 

在 文献 中 ,属性 ,字段 , 维 (dimension) ,特征 (feature) 和 变量 (variable) 可 以 表示 相同 
的 意义 ,在 不 同 场 合 它 们 总 是 互 换 使 用 。 术 语 “ 维 ”一般 用 在 数据 仓库 中 ,“ 特 征 ” 较 多 
用 于 机 器 学 习 领 域 ,而 统计 学 中 则 更 多 地 使 用 术语 “变量 *”。 数 据 挖掘 和 数据 库 领 域 则 
一 般 使 用 术语 “属性 ”或 “字段 "。 通 常 把 描述 对 象 的 一 组 属性 称 作 这 个 对 象 的 属性 
向 量 。 

属性 的 取 值 范围 决定 了 属性 的 类 型 ,通常 可 以 分 为 两 大 类 。 一 类 是 定性 描述 的 属性 ， 
其 中 可 以 划分 为 标 称 属性 布尔 属性 和 序 值 属性 。 定 性 属性 不 具有 数 的 大 部 分 性 质 , 即 使 
用 数 ( 即 整数 ) 表 示 , 也 应 当 像 对 待 符 号 一 样 对 待 它们 ; 另 一 类 是 定量 描述 的 属性 , 即 数 值 
属性 ,定量 属性 用 数 表示 ,并 且 具 有 数 的 大 部 分 性 质 ,定量 属性 可 以 是 整数 值 或 连续 值 。 
下 面 将 一 一 介绍 以 上 各 类 属性 的 定义 。 


2.2.2 标 称 属性 


标 称 属性 (nominal attribute) 取 值 仅仅 只 是 一 些 不 同 的 符号 或 事物 的 名 称 , 每 个 值 提 
供 了 足够 的 信息 以 区 分 对 象 。 这 些 值 不 具有 有 意义 的 次 序 ,在 计算 机 科学 中 ,可 以 将 这 些 
值 看 作 是 枚 举 的 (enumeration) ,例如 邮政 编码 ,学生 ID 头发 颜色 等 。 

例 2-1 可 以 用 名 称 、 种 类 、 颜 色 .是 否 成熟 .品级 等 属性 来 描述 水 果 类 的 数据 对 象 ， 
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如 表 2-1 所 示 。 
表 2-1 对 象 苹果 属性 组 
名 称 种 类 颜色 是 否 成 熟 品级 
苹果 核果 类 红色 是 优 

















名 称 的 值 可 能 是 梨 、 芋 果 , 桃 子 等 ,种 类 的 值 可 能 是 浆果 类 .核果 类 、 柑 郴 类 等 ,而 颜色 
的 值 可 能 是 红色 、 青 色 、 黄 色 等 。 在 这 个 例子 中 ,它们 的 值 分 别 是 苹果 ,核果 类 红色, 这些 
值 表明 了 其 所 描述 的 对 象 苹果 的 属性 ,这 就 是 一 般 意 义 上 的 标 称 属性 。 为 了 方便 ,也 可 以 
用 数 表示 这 些 标 称 属性 。 例 如 ,可 以 定义 1 表示 苹果 ,2 表示 梨 ,3 表示 桃子 ,那么 苹果 在 
名 称 属性 上 取 值 为 1。 不 过 即使 用 数字 来 表示 这 些 属 性 的 值 ,也 不 能 定量 地 使 用 这 些 值 ， 
例如 不 能 用 苹果 (1) 减 去 梨 (2), 这 样 做 是 没有 意义 的 。 一 般 情 况 下 ,不 能 求 这 些 值 的 均 
值 .中 位 数 ,但 是 可 以 求 出 该 属性 下 最 常 出 现 的 值 , 这 个 值 称 为 众 数 (mode) ,是 一 种 中 心 
趋势 度量 ,2. 3. 1 节 将 介绍 数据 的 中 心 趋势 度量 。 


2.2.3 二 元 属性 


二 元 属性 (binary attribute) 是 只 有 两 个 可 选 值 的 属性 。 该 类 属性 只 有 0 和 1 或 者 
True 和 False 两 个 状态 ,一般 0 表示“ 否 ”,1 表示 “是 ”。 在 表 2-1 中 ,是 否 成 熟 这 一 属性 
就 是 二 元 属性 ,可 以 用 值 为 1 表示 成 熟 , 值 为 0 表示 不 成 熟 。 如 果 一 个 二 元 属性 的 两 种 状 
态 有 相同 的 权重 ,就 说 这 个 二 元 属性 是 对 称 的 :如果 两 种 状态 权重 不 同 , 则 这 个 二 元 属性 
是 非 对称 的 。 非 对 称 的 二 元 属性 经 常用 在 医学 领域 ,表示 某 种 医学 指标 的 阴性 或 阳性 ,为 
了 方便 ,通常 用 1 表示 权重 较 大 的 状态 。 


2.2.4 序 值 属性 


序 值 属性 (ordinal attribute) 的 值 提供 了 足够 的 信息 确定 数据 对 象 之 间 的 序 ,但 是 值 
之 间 的 差 是 未 知 的 。 在 例 2-1 中 ,品级 属性 的 取 值 有 优 、 良 和 差 。 这 3 个 值 有 一 个 先后 次 
序 , 表 示 了 芋 果 的 品级 好 坏 , 属 于 序 值 属性 。 在 2. 5. 2 节 中 可 以 看 到 ,数值 属性 可 以 转换 
为 序 值 属性 ,主要 是 通过 把 值 域 进行 离散 化 得 到 。 序 值 属 性 可 以 定义 众 数 、 中 位 数 或 百 分 
位 数 ,但 是 不 能 定义 均值 。 


2.2.5 数值 属性 


数值 属性 (numeric attribute) 是 最 常用 的 一 种 数据 类 型 , 它 是 可 度量 的 ,用 整数 或 实 
数值 表示 , 它 定 量 地 描述 对 象 。 一 些 文献 中 将 数值 属性 又 划分 为 区 间 标 度 或 比率 标 度 属 
性 。 其 中 区 间 标 度 (interval-scaled) 属 性 存在 测量 单位 , 值 之 间 的 差 是 有 意义 的 ,因此 可 
以 比较 和 评定 这 种 属性 值 之 间 的 差 。 对 于 区 间 标 度 属性 , 既 可 以 计算 中 位 数 和 众 数 ,也 可 
以 计算 均值 和 标准 差 等 。 比 率 标 度 (ratio-scaled) 属 性 是 具有 固定 零点 的 属性 , 它 的 差 和 
比率 都 是 有 意义 的 ,同样 可 以 计算 其 均值 .中 位 数 及 众 数 等 。 
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23 数据 的 统计 描述 方法 


在 对 数据 进行 分 析 之 前 ,把 握 数 据 的 全 貌 是 至 关 重 要 的 。 基 本 的 统计 描述 方法 不 仅 
可 以 用 来 识别 整个 数据 集 的 性 质 和 特点 ,发 现 数据 集中 的 噪声 或 离 群 点 ,还 能 够 对 缺失 的 
数据 值 进 行 补 全 。 

本 节 讨 论 两 类 基本 统计 描述 。 一 类 是 度量 整个 数据 集合 的 中 心 趋势 的 方法 ,其 中 最 
常见 的 度量 方法 是 均值 .中 位 数 、 众 数 和 中 列 数 。 这 几 种 度量 方法 从 不 同 角度 描述 了 数据 
集 的 中 心 位 置 。 另 一 类 是 度量 整个 数据 集 的 离散 趋势 的 方法 ,主要 包括 极 差 \ 分 位 数 、 五 
数 概括 、 方 差 和 标准 差 。 这 些 度量 方法 从 不 同 角度 描述 了 数据 集 的 离 中 趋势 ,对 于 识别 离 
群 点 是 非常 有 用 的 。 本 节 首 先 讨 论 数据 的 中 心 趋势 度量 的 相关 问题 ,然后 讲解 数据 离散 
趋势 度量 。 


2.3.1 数据 的 中 心 趋势 度量 


中 心 趋势 是 指 一 组 数据 向 某 一 中 心 值 靠拢 的 倾向 ,测量 中 心 趋势 就 是 要 寻找 数据 一 
般 水 平 的 代表 值 或 中 心 值 。 

假设 有 一 个 表示 年 龄 的 属性 X, 通 过 采集 得 到 X 的 一 组 观测 值 ri ,zz，…',zN，, 这 些 
值 又 称 为 属性 X 的 数据 集合 。 那 么 这 一 组 观测 值 大 部 分 落 在 何 处 呢 ? 描述 中 心 趋 势 的 
统计 指标 可 以 回答 这 个 问题 。 下 面 介绍 几 种 常用 的 中 心 趋势 度量 : 均值 ,中 位 数 、 众 数 和 
中 列 数 。 


1. 均值 


数据 集中 心 最 常用 .最 有 效 的 数值 度量 之 一 是 均值 (mean) ,均值 有 很 多 种 ,包括 算术 
均值 和 几何 均值 等 。 算 术 均 值 公式 如 下 : 
N 
2 ay ta, +e HHan 2-1) 
N N 
例 2-2 ”对 于 属性 X, 若 观测 值 依次 为 17,10,23,15,19,18,30,25,9,4,12,10, 使 用 
式 (2-1) 计 算 如 下 : 


17 十 10 十 23 十 15 十 19 十 18 十 30 十 25 十 9 十 4 十 12 十 10 _ 192 
12 12 











16 





因此 这 组 观测 值 的 均值 为 16。 

权重 (weight) 是 一 个 相对 的 概念 , 它 反映 了 对 应 观测 值 的 相对 重要 程度 ,意义 或 出 现 
频率 ,也 就 是 说 要 从 若干 个 观测 值 中 分 出 轻重 来 。 如 果 对 于 属性 集合 X, 其 每 个 值 x 有 
一 个 权重 w; 与 之 对 应 ,这 时 ,可 以 计算 数据 集 的 加 权 算 术 均 值 , 计 算 公式 如 下 : 











> WX; 
~~ m anti Hwt 十 … 十 wNZN 
@-2 
= = @, 十 oz 十 … 十 wN 
y w; 
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虽然 均值 是 描述 数据 集 最 有 用 的 单个 量 ,但 是 它 并 非 总 是 度量 数据 集中 心 趋 势 的 最 
佳 方法 。 均 值 对 极端 值 ( 如 离 群 点 ) 极 为 敏感 ,如 果 将 上 述 属 性 X 的 第 一 个 观测 值 17 改 
为 100, 这 时 算得 的 均值 为 22.9。 这 显然 没 能 正确 反映 数据 集 的 中 心 ,因为 极端 大 的 值 
100 显著 拉 高 了 数据 集 的 均值 。 为 了 抵消 极端 值 的 影响 ,可 以 使 用 截断 均值 (trimmed 
mean) 。 计 算 截断 均值 时 ,需要 丢弃 数据 集中 极端 大 和 极端 小 的 值 (如 去 掉 属 性 X 观测 值 
中 的 最 大 和 最 小 值 ) ,或 者 分 别 丢 弃 高 端 和 低 端 值 的 2% ,但 应 避免 在 两 端 截 去 太 多 ,因为 
这 样 容易 丢失 有 用 的 信息 。 


2. 中 位 数 


大 多 数 时 候 数据 集合 中 的 观测 值 分 布 是 不 均匀 的 ,这 样 的 数据 集合 称 为 倾斜 数据 集 ， 
一 般 会 使 用 偏 斜 度 来 度量 数据 分 布 的 偏 斜 方 向 和 程度 。 均 值 不 能 很 好 地 反映 倾斜 数据 集 
的 中 心 , 这 时 候 可 以 计算 其 中 位 数 (median) 或 众 数 (mode)。 中 位 数 是 有 序数 据 集 的 中 间 
值 , 它 将 数据 较 大 的 一 半 和 较 小 的 一 半分 开 。 

假定 将 数据 集 X 的 N 个 观测 值 按 序 排列 。 如 果 N 是 奇数 , 则 中 位 数 就 是 该 有 序 集 
的 中 间 值 ;如 果 N 为 偶数 , 则 中 位 数 不 唯一 , 它 是 最 中 间 的 两 个 值 之 间 的 任意 值 , 若 X 是 
数值 属性 ,这 时 中 位 数 可 以 计算 中 间 两 个 值 的 平均 值得 到 。 

对 于 例 2-2 的 属性 X 来 说 ,其 有 12 个 观测 值 ,观测 值 个 数 为 偶数 ,因此 中 位 数 为 
(17 十 15)/2 二 16。 如 果 去 掉 该 属性 的 最 大 观测 值 30, 则 观测 值 个 数 为 奇数 ,这 时 数据 集 
的 中 位 数 为 该 组 观测 值 有 序 排列 后 的 中 间 值 , 即 为 15。 

当 数 据 集 的 规模 很 大 时 ,计算 中 位 数 开销 很 大 。 若 观测 值 是 数值 属性 ,可 以 通过 计算 
其 中 位 数 的 近似 值 反映 该 数据 集 的 中 心 趋势 。 首 先 将 数据 集 的 zx; 值 划分 成 区 间 IF 
知 每 个 区 间 数 据 值 的 个 数 , 称 包含 中 位 数 的 区 间 为 中 位 数 区 间 , 此 时 可 以 使 用 以 下 公式 ， 
用 插值 计算 得 到 整个 数据 集中 位 数 的 近似 值 : 
ea 
其 中 ,Li 是 中 位 数 区 间 的 下 界 .N 是 整个 数据 集中 观测 值 的 个 数 ， (È frea), 是 低 于 中 位 
数 区 间 的 所 有 区 间 观 测 值 的 个 数 总 和 ，freqwess 是 中 位 数 区 间 中 观测 值 的 个 数 , width 是 
中 位 数 区 间 的 宽度 , 即 中 位 数 区 间 最 小 和 最 大 值 的 差 。 


3. RK 


一 组 数据 集中 出 现 次 数 最 多 的 值 叫 众 数 (mode) ,有 时 众 数 在 一 组 数据 集中 不 止 一 
个 。 具 有 一 个 、 两 个 或 三 个 众 数 的 数据 集 分 别称 为 单 峰 (unimodal) , IUE (bimodal) a = 
峰 (trimodal) 数 据 集 。 有 两 个 或 两 个 以 上 众 数 的 数据 集 统称 为 多 峰 (multimodal) 数 据 集 。 
如 果 数 据 集中 每 个 数据 值 只 出 现 一 次 , 则 该 数据 集 没有 众 数 。 例 2-2 X 数据 集 的 观测 
值 众 数 为 10。 


4. 中 列 数 
中 列 数 (midrange) 是 数据 集 最 大 值 和 最 小 值 的 平均 值 。 对 于 例 2.2 的 X 属性 ,其 中 





median = L, 4 (2-3) 
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列 数 可 以 计算 为 (30 十 4)/2 一 17。 

偏 斜 度 是 对 数据 分 布 偏 斜 方向 及 程度 的 度量 。 数 据 集 的 分 布 有 的 是 对 称 的 ,有 的 是 
不 对 称 的 , 即 呈 现 偏 态 ,在 大 部 分 实际 应 用 中 ,数据 都 是 不 对 称 分 布 的 。 在 偏 态 分 布 中 , 当 
偏 斜 度 为 正 值 时 , 称 为 分 布 正 偏 或 正 倾斜 , 即 众 数位 于 算术 平均 数 的 左 侧 ,小 于 中 位 数 的 
值 ,如 图 2-1(a) 所 示 ; 当 偏 斜 度 为 负 值 时 , 称 为 分 布 负 偏 或 负 倾斜 , 即 众 数位 于 算术 平均 
数 的 右 侧 ,大 于 中 位 数 的 值 ,如 图 2-1(c) 所 示 。 可 以 利用 众 数 . 中 位 数 和 算术 平均 数 之 间 
的 关系 判断 分 布 是 左 偏 态 还 是 右 偏 态 。 在 完全 对 称 的 数据 集中 ,均值 .中 位 数 和 众 数 都 是 
相同 的 中 心 值 ,如 图 2-1(b) 所 示 。 












众 数 均值 众 数 均值 均值 众 数 
中 位 数 中 位 数 中 位 数 
(a) 正 倾斜 数据 (b) 对 称 数 据 (c) 负 倾斜 数 据 


图 2-1 倾斜 数据 样 例 图 


2.3.2 数据 的 离散 趋势 度量 


为 了 把 握 数 据 的 全 貌 , 除 了 中 心 趋势 度量 外 ,还 可 以 度量 数据 的 离散 趋势 。 离 散 趋势 
度量 反映 了 数据 集中 的 值 远 离 其 中 心 值 的 程度 ,因此 也 可 以 叫做 离 中 趋势 度量 。 离 散 趋 
势 度量 主要 有 极 差 分 位 数 ,五 数 概括 ,方差 和 标准 差 等 几 种 度量 方法 。 
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极 差 (range) 又 称 全 距 , 是 指 一 组 数据 集 观 测 值 中 的 最 大 值 和 最 小 值 之 差 。 它 只 考虑 
了 数据 中 的 最 大 值 和 最 小 值 , 忽 略 了 全 部 观测 值 之 间 的 差异 ,因此 极 差 反映 的 是 一 组 数据 
集合 中 最 大 的 离散 程度 情况 。 

将 数据 集中 所 有 观测 值 按 递增 顺序 排列 ,然后 把 数据 划分 成 大 小 基本 相同 的 连续 集 
合 , 每 隔 一 定 距 离 取 数据 分 布 上 的 一 个 数据 点 ,这 个 数据 点 就 叫做 数据 集 的 分 位 数 。 假 设 
将 数据 集 划 分 为 个 部 分 , 则 从 数据 集 的 起 始点 到 终点 总 共 可 以 取出 & 一 1 个 数据 点 ,这 
些 数据 点 称 为 分 位 数 。 分 位 数 (quantile) 是 统计 学 中 的 概念 , 它 主要 用 于 度量 呈 偏 态 的 
定量 数据 的 离散 趋势 ,常用 的 有 四 分 位 数 、 十 分 位 数 和 百 分 位 数 。 

这 里 主要 介绍 四 分 位 数 ,其 他 以 此 类 推 。 如 果 将 有 序数 据 集 划分 为 4 个 间距 相等 的 
部 分 ,每 部 分 包含 数据 集中 四 分 之 一 的 数据 ,这 时 产生 3 个 数据 点 ,通常 称 它们 为 四 分 位 
数 。 四 分 位 数 给 出 了 数据 分 布 的 中 心 、 散 布 和 形状 的 某 种 指示 。 第 1 个 四 分 位 数 记 作 
Qi , 它 处 在 数据 分 布 25% 的 位 置 ;第 2 个 四 分 位 数 处 在 数据 分 布 的 中 心 位 置 ,也 就 是 中 位 
数 ;第 3 个 四 分 位 数 记 作 Qi , 它 处 在 数据 分 布 75% 的 位 置 。 

第 3 个 和 第 1 个 四 分 位 数 之 间 的 距离 是 叫做 四 分 位 数 极 差 (IQR), 它 是 度量 数据 集 
散布 程度 的 一 种 最 简单 的 方法 。 可 以 用 如 下 公式 计算 四 分 位 数 极 差 : 
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IQR = Q-Q (2-4) 
例 2-2 中 的 X 属性 总 共有 12 个 数据 点 , 按 递 增 顺 序 排列 后 ,该 数据 集 3 个 分 位 数 点 上 的 
值 分 别 是 10、15 和 19, 即 Q; =19,Q, 一 10, 所 以 四 分 位 数 极 差 IQR=19—10=9, 


2. 五 数 概括 与 盒 图 


前 面 已 经 探讨 过 数据 分 布 的 均值 .中 位 数 . 众 数 . 极 差 和 四 分 位 数 等 度量 。 但 是 对 于 倾 
斜 数据 ,单一 指标 并 不 能 很 好 地 描述 数据 的 完整 分 布 情况 ,引入 五 数 概括 (fivenumber 
summary) 可 以 更 加 完整 地 描述 数据 的 分 布 情况 。 五 数 概 括 中 的 五 数 由 中 位 数 、 四 分 位 数 Q 
和 Q、 最 大 和 最 小 观测 值 组 成 ,一 般 按 次 序 Minimum、Q „Median, Q; ,Maximum 分 别 写 出 。 
通常 使 用 盒 图 (boxplot) 来 直观 地 对 这 五 数 进行 可 视 化 表示 , 盒 图 又 被 称 为 箱 线 图 ， 
其 呈现 形式 如 下 : 
(1) 盒 的 端点 在 四 分 位 数 上 ,下 端点 是 Qi ,上 端点 是 Qi , 盒 的 长 度 是 四 分 位 数 极 
差 IQR。 
(2) 中 位 数 在 盒 内 用 横 线 进行 标记 。 
(3) 盒 外 用 两 条 虚线 分 别 延 伸 至 最 小 和 最 大 观测 值 , 这 两 条 虚线 又 称 为 胡须 。 
五 数 概括 中 的 最 大 和 最 小 观测 值 不 是 数据 集合 中 的 最 大 和 最 小 值 ,其 中 最 小 观测 值 
的 计算 公式 为 
最 小 观测 值 > Q 一 1. 5IQR (2-5) 
最 大 观测 值 的 计算 公式 为 : 
最 大 观测 值 < Q; 十 1. 5IQR (2-6) 
当 数据 量 适中 时 ,还 可 以 适当 绘制 出 个 别离 群 点 。 识 别离 群 点 的 一 般 规 则 是 : 挑选 
大 于 最 大 观测 值 或 小 于 最 小 观测 值 的 点 。 盒 图 可 以 从 直观 的 可 视 化 角度 比较 若干 数据 集 
的 分 布 情况 ,如 图 2-2 所 示 。 图 中 的 盒 图 是 用 MATLAB 绘制 的 ,其 中 5 个 数据 集 是 调用 
randint( PA BCE RÁJ 1 一 100 中 的 5 组 随机 数据 集 ,通过 图 2-2, 可 以 直观 地 比较 这 5 组 











图 2-2 RAHE 
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SSH 9 PAR 1,3 四 分 位 数 、 最 小 和 最 大 观测 值 的 分 布 情况 。 
除了 采用 MATLAB 绘制 盒 图 ,很 多 统计 分 析 工 具 软 件 都 具备 绘制 盒 图 的 功能 。 


3. 方差 和 标准 差 


方差 与 标准 差 是 观察 数据 散布 情况 的 两 个 重要 度量 方法 ,它们 可 以 指出 数据 分 布 的 
散布 程度 。 标 准 差 低 表示 数据 观测 值 趋向 于 接近 均值 ,标准 差 高 表示 数据 观测 值 散布 在 
更 大 的 值 域 中 ,也 就 是 说 所 有 数据 值 的 离散 程度 较 大 。 

设 属 性 X 有 N 个 观测 值 xz1 ore et ,zw ,其 方差 可 以 用 如 下 公式 求 得 : 

2 元) PE z (2-7) 
Hp T Fa NOU HN (EL 9 E E REEE o 的 平方 根 。 
对 于 例 2-2 中 的 属性 X, 其 均值 为 16,N 为 12, 可 以 计算 其 方差 和 标准 差分 别 为 
of = Lx CP + 10? +23? + =+ + 108) — 16° ~ 51.83 
ox J51, 83 ~ 7.20 

众所周知 ,一 个 高 质量 数据 集 的 采集 ,其 得 到 的 样本 观测 值 应 该 很 紧密 地 分 散在 样本 
真实 值 周围 。 如 果 不 紧密 ,与 真实 值 的 距离 就 会 大 ,相应 离散 度 就 大 ,那么 准确 性 就 不 好 ， 
数据 质量 就 不 高 。 因 此 ,离散 度 是 评价 数据 质量 好 坏 的 最 重要 也 是 最 基本 的 指标 。 由 于 
方差 是 数据 的 平方 ,与 观测 值 本 身 相差 太 大 ,人 们 难以 直观 地 衡量 ,所 以 常用 标准 差 来 进 
行 离散 程度 的 度量 。 

一 组 合理 的 数据 观测 值 一 般 不 会 远离 均值 ,超过 标准 差 的 数 倍 。 因 此 ,标准 差 是 度量 
数据 集 发 散 程度 的 很 好 的 指标 。 

至 此 ,关于 数据 集 的 中 心 趋势 度量 与 离散 趋势 度量 的 探讨 就 告 一 段落 。 要 更 有 效 更 
直观 地 向 用 户 展示 数据 ,数据 可 视 化 是 最 佳 的 表达 方法 ,数据 可 视 化 的 一 些 方法 将 在 第 3 
章 进行 介绍 ,下 一 节 将 介绍 数据 对 象 的 相似 性 与 相关 性 计算 方法 。 
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上 一 节 中 的 数据 统计 描述 方法 是 围绕 一 组 对 象 集合 中 某 个 属性 的 数据 集合 来 使 用 
的 ,本 节 对 数据 对 象 关 系 的 计算 方法 围绕 一 组 对 象 的 多 个 属性 数据 展开 。 数 据 对 象 的 计 
算 通 常 都 是 指 分 析 计 算数 据 对 象 之 间 的 相似 性 和 相 异 性 ,相应 的 计算 方法 已 经 被 许多 数 
据 挖掘 技术 所 使 用 ,如 聚 类 、 分 类 、 离 群 点 检测 等 。 例 如 ,电信 企业 为 了 降低 其 客户 流失 
率 , 就 需要 通过 对 客户 的 聚 类 分 析 ,也 就 是 数据 对 象 的 相似 性 分 析 , 发现 那 些 易 于 流失 的 
客户 群 的 共同 特征 ,根据 其 特征 采取 相应 的 解决 办 法 。 对 象 之 间 的 相似 性 是 指 对 象 间 相 
似 程 度 的 数值 度量 ,数据 的 相似 性 也 即 邻 近 度 ,通常 邻近 度 的 值 为 非 负 值 , 取 值 范围 在 0 
和 1 之 间 ,0 代表 完全 不 相似 ,1 代表 完全 一 致 。 在 对 相似 性 进行 计算 时 ,通常 都 是 转换 成 
计算 对 象 之 间 的 差异 程度 , 即 相 异 性 ,两 个 对 象 越 相似 .它们 间 的 差异 程度 就 越 小 ,也 就 是 
相 异 性 就 越 低 ,一 般 采 用 “距离 ”作为 相 异 性 的 同义词 。 计 算数 据 对 象 之 间 相 异性 的 度量 
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方法 很 多 ,选择 度量 方法 时 ,应 观察 对 象 特征 的 数据 类 型 以 及 对 象 特征 的 总 体 分 布 状况 等 
因素 。2. 4. 1 节 将 对 相似 性 计算 方法 进行 详细 讨论 ,2. 4. 2 节 将 讨论 数据 相关 性 的 计算 
方法 。 


2.4.1 数据 相似 性 计算 方法 


假设 及 个 对 象 ,每 个 对 象 有 p 个 属性 ,这 些 对 象 分 别 是 X= Can stasti) 
Xs 二 (za Lo s Lop) ,六 一 (zm Tns Ip) AP rn EMR X: 的 第 j 个 属性 值 。 
对 象 通常 是 指 关系 数据 库 中 的 元 组 ,也 称 数据 样本 或 特征 向 量 。 在 相似 性 计算 中 ,总 是 通 
过 数据 矩阵 (data matrix) 这 种 数据 结构 将 对 象 集合 组 织 起 来 ,例如 用 nnXpln 个 对 象 ,p 
个 属性 ) 的 如 下 矩阵 存放 以 上 个 数据 对 象 : 


ay Ly ip 
Ta X22 Tp 

(2-8) 
Tm Tn O Lap 


其 中 每 行 表示 一 个 对 象 。 

A dG 7) 来 表示 两 个 对 象 和 j 之 间 的 距离 值 ,也 就 是 相似 度 值 ,显然 ,d (i,j) 
越 大 ,说 明 两 者 距离 越 大 ,相似 性 就 越 小 。 

相似 性 计算 方法 依赖 于 对 象 属性 的 数据 类 型 ,下面 分 别 对 标 称 属性 、 二 元 属性 、 序 值 
属性 以 及 数值 属性 等 的 相似 性 度量 方法 进行 探讨 。 


1. 标 称 属性 相 仅 性 
假设 标 称 属 性 的 状态 数目 是 M。 两 个 对 象 i 和 j 之 间 的 距离 可 以 根据 对 象 属性 的 不 
匹配 率 来 计算 ,公式 如 下 : 
d(i,j) = pzm (2-9) 
其 中 , 是 刻画 对 象 的 属性 总 数 ,m 是 两 个 对 象 取 值 相同 的 属性 数 。 


例 2-3 沿用 2.2 节 中 水 果 的 例子 ,再 增加 几 组 数据 ,在 表 2-2 中 ,考虑 种 类 、 颜 色 、 是 
否 成 熟 \ 品 级 4 种 属性 。 
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名 字 种 类 颜色 是 否 成 熟 品级 
苹果 水 果 红色 是 优 
梨 水 果 黄色 是 优 
白菜 蔬菜 白色 是 良 
桃子 水 果 粉色 是 优 

















令 p 一 4, 当 对 象 i Mj VR .dG.j)=0; 8M dG.jp=A-m/4, +AU: 
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0 
d(2.1) 0 

cd(3,1) d(3,2) 0 

d(4,1) d(4,2) d(4,3) 0 | 


© 


j= ale alr o 
ale aloo 


还 可 以 将 标 称 属性 通过 编码 方法 转化 为 非 对 称 二 元 属性 来 计算 其 相似 性 。 假 设 标 称 
属性 有 M 种 状态 ,对 每 种 状态 建立 一 个 二 元 属性 。 对 于 有 给 定 状 态 的 对 象 , 该 状态 对 应 
的 二 元 属性 值 置 为 1 ,其余 二 元 属性 值 都 为 0。 用 这 种 形式 编码 的 标 称 属 性 ,可 以 用 二 元 
属性 相似 性 计算 方法 来 计算 其 相似 性 。 

2. 二 元 属性 相 仅 性 

二 元 属性 只 有 两 种 状态 : 0 和 1 ,或 者 是 True 和 False. 

二 元 属性 的 相似 性 度量 分 为 对 称 的 和 非 对 称 的 两 种 情况 。 在 分 析 对 象 相似 性 时 ,对 
称 的 二 元 属性 的 两 个 状态 取 值 对 相似 性 分 析 的 贡献 是 一 致 的 ,而 非 对 称 二 元 属性 的 两 个 
状态 取 值 具有 不 同 的 权重 ,对 相似 性 分 析 的 贡献 不 一 样 。 

为 便于 介绍 二 元 属性 的 相似 性 度量 方法 , 表 2-3 给 出 了 两 个 对 象 所 有 的 二 元 属性 取 
值 情况 。 

R23 二 元 属性 取 值 表 














对 象 j 
对 象 i 
1 0 sum 
1 q r qtr 
0 š t ste 
sum qts rts p 











其 中 ,g 是 对 象 ; 和 j 都 取 1 的 二 元 属性 数 ;r 是 在 对 象 i 中 取 1, 在 对 象 j 中 取 0 的 二 
元 属性 数 ;s 是 在 对 象 ; 中 取 0, 在 对 象 j 中 取 1 的 二 元 属性 数 ;t 是 对 象 i 和 j 都 取 0 的 二 
元 属性 数 。 对 象 所 拥有 的 二 元 属性 总 数 是 p.p=qtrt+st+t. 

如 果 对 象 i 和 j 都 是 用 对 称 的 二 元 属性 刻画 的 , 则 i 和 j 的 距离 采用 如 下 公式 进行 
计算 : 


sy i G 
dG) = Fr FTI (2-10) 


如 果 对 象 i 和 j 都 是 用 非 对 称 的 二 元 属性 刻画 的 ,而 且 当 属 性 值 取 1 时 权重 最 高 , 那 
么 式 (2-10) 中 的 上 认为 是 可 被 忽略 的 ( 即 在 属性 总 数 中 减 去 了 两 个 对 象 都 取 0 的 属性 值 ， 
因为 这 些 属性 在 对 象 相似 性 分 析 中 意义 不 大 ) , 则 i 和 7 的 距离 计算 公式 如 下 : 


dG,j) = (2-11) 
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例 2-4 (LIA PRR 17 SPA 5 个 非 对称 二 元 属性 ,如 表 2-4 所 示 。 
R24 属性 表 
对 象 名 Attr-1 Attr-2 Attr-3 Attr-4 Attr-5 








4 0 1 0 0 1 




















Í ny 1 1 0 1 





计算 对 象 i\j 的 相 异 性 。 
因为 4 个 属性 都 为 非 对 称 的 二 元 属性 ,所 以 要 用 式 (2-11) 进 行 计算 。 先 画 出 两 对 象 
的 列 联 表 , 如 表 2-5 所 示 。 


R25 对 象 i 与 j 的 列 联 表 





























对 象 j 
对 象 i 
1 0 sum 
1 2 0 qtr 
0 2 1 stt 
sum qts ttr p 
根据 式 (2-11) 可 得 
yy 0 二 2 _1 
hk 
所 以 ,对 象 i 和 j 的 相 异 性 为 1/2。 


3. 数值 属性 相似 性 


在 实际 应 用 中 ,数值 属性 是 最 常用 的 一 种 属性 类 型 。 有 很 多 方法 来 计算 数值 属性 刻 
画 的 对 象 之 间 的 邻近 性 。 最 常用 的 有 欧 几 里 得 距离 (又 称 为 欧 氏 距离 ). 曼 哈 顿 距离 和 闵 
可 夫 斯 基 距 离 等 。 

欧式 距离 (Euclidean distance) 是 高 维 空间 中 两 点 之 间 的 距离 , 它 计 算 简 单 ,应 用 广 
泛 , 但 是 没有 考虑 属性 之 间 的 相关 性 , 当 多 个 属性 参与 计算 时 会 影响 结果 的 准确 性 ,同时 
它 对 向 量 中 的 每 个 分 量 的 误差 都 同等 对 待 , 一 定 程度 上 放大 了 取 值 范围 较 大 的 属性 误差 
在 距离 计算 中 的 作用 。 

S i= (aatri In) J j= (En ,zj yzn) 是 两 个 被 2 个 数值 属性 描述 的 对 象 , 则 
对 象 i 与 j 的 欧 氏 距离 定义 为 

Alij) = = a a aa) Fe F Gea? (2-12) 

欧 氏 距离 虽然 很 有 用 ,但 也 有 明显 的 缺点 。 它 将 对 象 的 不 同属 性 之 间 的 差别 等 同 看 
待 ,. 这 一 点 有 时 不 能 满足 实际 要 求 。 例 如 ,在 教育 研究 中 ,经常 遇 到 对 人 的 分 析 和 判别 , 显 
然 描述 个 体 的 不 同属 性 对 于 区 分 个 体 有 着 不 同 的 重要 性 ,而 欧式 距离 却 采用 所 有 属性 等 
同 对 待 的 方法 。 

曼哈顿 距离 (Manhattan distance) 也 称 为 城市 街区 距离 ,想象 在 曼哈顿 要 从 一 个 十 字 
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路 口 开车 到 另外 一 个 十 字 路 口 ,驾驶 距离 是 两 点 间 的 直线 距离 吗 ? 显然 不 是 ,除非 你 能 穿 
越 大 楼 。 实 际 驾驶 距离 就 是 “曼哈顿 距离 ”。 其 定义 如 下 : 
dsj) =| za “aa IF] te — 22 | +] ra — rin | (2-13) 
欧 氏 距离 和 曼哈顿 距离 都 有 如 下 数学 性 质 : 
(1) 非 负 性 。4dGi 7) 三 0, 即 距离 是 一 个 非 负 的 数值 。 
(2) 同一 性 。d(i,) 二 0, 即 对 象 到 自身 的 距离 为 0。 
(3) SPREE. dG.j)=d ,让 , 即 距离 是 一 个 对 称 函数 。 
(4) SARER., dG KdG k) Hak j) MARR i 到 对 象 j 的 直接 距离 不 会 大 
于 途经 任何 其 他 对 象 A 的 距离 。 
Bi 2-5 假设 有 两 个 被 数值 属性 所 刻画 的 对 象 ,分 别 为 A 二 (4,9,8),B 二 (2,5,7) ,分 
别 求 出 A 与 B 的 欧 氏 距离 和 曼哈顿 距离 。 
Xt A.B 的 欧 氏 距离 : 
d(A,B) (4—2)? + (9 —5)? + (8 —7)? 21 
对 象 A、B 的 曼哈顿 距离 : 
d(A,B) =| 4—2 | 十 | 9 一 5 | 二 18 一 ?71|=7 
切 比 雪夫 距离 (Chebyshev distance) 也 称 上 确 界 距离 ,是 向 量 空间 中 的 一 种 度量 ,两 个 
点 之 间 的 切 比 雪夫 距离 可 定义 为 其 各 坐标 数值 差 中 最 大 的 差 值 。 切 比 雪 夫 距 离 得 名 自 俄 
罗斯 数学 家 切 比 雪夫 。 切 比 雪夫 距离 也 称 为 棋盘 距离 ,国际 象棋 中 ,国王 走 一 步 能 够 移动 
到 相 邻 的 8 个 方 格 中 的 任意 一 个 ,那么 国王 从 格子 ACzi'y ) 走 到 格子 B(x ,ys ) 最 少 需 
要 多 少 步 ? 我 们 会 发 现 最 少 步 数 总 是 max{|zz: 一 ,ly 一 |) 步 。 
对 象 i 和 j 的 切 比 雪 夫 距 离 定 义 为 
d(isj) max {| za — 2 |» | te — zp lsrs | Gn — Zin |} (2-14) 
闵可夫 斯 基 距 离 (Minkowski distance) 是 衡量 数值 点 之 间距 离 的 一 种 非常 常见 的 方 
法 , 它 是 欧 氏 距离 与 曼哈顿 距离 的 推广 ,其 定义 如 下 : 
dG.j) = Y| za — xn | F| za — tp |F F| zm — Tp |" (2-15) 
闵可夫 斯 基 距 离 不 是 一 种 距离 ,而 是 一 组 距离 的 定义 。 该 距离 最 常用 的 A 是 2 和 1， 
前 者 是 欧 几 里 得 距离 ,后 者 是 曼哈顿 距离 。 
标准 化 欧 氏 距离 (standardized euclidean distance) 是 针对 简单 欧 氏 距离 的 缺点 而 作 的 
一 种 改进 ,其 基本 思想 是 : 先 将 数据 对 象 的 各 个 分 量 都 进行 均值 为 w 或 标准 差 为 * 的 标 
准 化 ,然后 再 计算 欧式 距离 。 其 定义 如 下 : 


d(isj) Je) (=) ++ (=) (2-16) 
式 (2-16) 中 的 51 ,ss。，…,s, 分 别 表示 不 同属 性 的 标准 差 ,标准 化 欧 氏 距离 也 可 以 看 作 是 加 
权 的 欧 氏 距离 ,这 种 加 权 思想 也 可 以 用 于 以 上 其 他 几 种 距离 度量 中 。 


4. 序 值 属性 相似 性 
序 值 属性 的 值 之 间 具有 有 意义 的 序 或 排 位 。 通 过 把 数值 属性 的 值 域 划分 成 有 限 个 类 
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别 ,再 离散 化 数值 属性 得 到 序 值 属性 。 即 将 数值 属性 的 值 域 经 过 离散 化 映射 到 具有 MT 
个 类 别 的 序 值 属性 。 如 将 身高 数值 属性 离散 化 到 3 个 区 间 : 140 一 160cm,160 一 175cm， 
175 一 190cm, 分 别 定 义 这 3 个 区 间 为 “ 矮 “* 中 等 “高 ”, 于 是 这 些 有 序 的 状态 定义 了 一 个 
排 位 1,2,… ,Mj ,数值 属性 “身高 "转换 为 序 值 属性 “身高 ”。 
对 于 序 值 属性 刻画 的 对 象 ,如 何 来 计算 其 邻近 性 ? 假设 /是 用 于 描述 ”个 对 象 的 一 
组 序 值 属性 之 一 。 关 于 f 的 邻近 性 计算 步骤 如 下 : 
(1) 第 i 个 对 象 的 了 值 为 zi, 属性 有 Mj 个 有 序 的 状态 ,表示 排 位 1,2,… ,Mj。 用 
对 应 的 排 位 rip E {1,2,… ,My} 取 代 zi o 
(2) 由 于 每 个 序 值 属性 都 可 以 有 不 同 的 状态 数 ,所 以 通常 需要 将 每 个 属性 的 值 域 标 
准 化 映射 到 [0,1] 上 ,以 便 每 个 属性 都 有 相同 的 权重 。 通 过 用 xyr 代 蔡 第 ; 个 对 象 的 ri 来 
实现 数据 标准 化 ,计算 公式 如 下 : 
a Soe 1 
< 这 一 Mr 一 1 
(3) 两 两 对 象 之 间距 离 的 计算 可 以 用 前 面 介绍 的 任意 一 种 数值 属性 的 距离 度量 计算 
方法 , 式 (2-17) 中 第 i 个 对 象 的 /属性 值 使 用 x; 代替 。 
以 上 介绍 了 不 同属 性 类 型 情况 下 如 何 求解 对 象 之 间 的 相似 性 。 然 而 一 个 数据 分 析 问 
题 中 对 象 的 特征 向 量 并 不 一 定 是 确定 的 属性 组 合 ,比如 寻找 文本 内 容 相 似 的 文档 ,这 里 相 
似 度 的 计算 主要 侧重 于 判断 字符 或 单词 是 否 重复 或 完全 重复 ,这 时 以 上 所 介绍 的 公式 不 
再 适用 。 下 面 对 相似 性 计算 公式 进行 扩展 ,把 相似 度 的 概念 进一步 扩展 到 集合 等 运算 上 。 


5. Jaccard 相似 性 


Jaccard 相似 性 是 一 个 特定 的 “相似 度 ” 概 念 , 即 通 过 计算 两 个 对 象 特征 集合 的 交集 的 
相对 大 小 来 获得 集合 之 间 的 相似 性 。 假 设 两 个 对 象 的 特征 集合 分 别 为 S 和 工 , 则 两 个 对 
象 的 Jaccard 相似 性 计算 公式 如 下 : 


sim(S,T) = 





(2-17) 


[sn Tl 
ISUTI 


Jaccard 相似 性 度量 是 两 个 对 象 特征 集合 的 相似 程度 ,但 是 它 并 不 是 一 个 真正 意义 上 的 距 
离 测 度 。 也 就 是 说 ,集合 越 接近 ,Jaccard 相似 性 越 大 ,而 不 是 像 距离 一 样 应 该 越 短 。 在 许 
多 文献 中 经 常会 提 到 Jaccard 距离 (Jaccard distance) , 它 是 一 个 表示 距离 的 度量 ,通过 1 
WAS Jaccard 相似 性 得 到 。Jaccard 相似 性 适用 于 多 个 应 用 ,包括 文档 的 文本 相似 度 及 顾 
客 购物 习惯 的 相似 度 计 算 等 。 

例 2-6 假设 有 两 组 数据 ,A 一 {3.4,5},B 一 {1,2,.3,5,6.7}。 下 面 计算 两 组 数据 的 
Jaccard 相似 度 。 

根据 式 (2-18), 有 如 下 计算 过 程 : 





(2-18) 














A [AN BI | {3,5} | 2 
sim(A.B) = TAUB] ~ [ie23.405.6,7) T 
可 以 得 到 A 5 B 的 Jaccard AWE DW 2/7. 
6. 编辑 距离 


编辑 距离 (edit distance) 只 适用 于 字符 串 比 较 , 其 计算 方法 有 两 种 。 一 种 是 字符 串 A 
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到 B 的 编辑 距离 等 于 将 字符 串 A 变换 为 字符 串 B 所 需要 的 单字 符 插入 及 删除 等 操作 的 
最 小 数目 。 最 基本 的 编辑 距离 计算 中 字符 操作 仅仅 包括 插入 、 删 除 和 替换 3 种 操作 ,一 些 
扩展 的 编辑 距离 计算 方法 (如 Damerau - Levenshtein distance 距离 ) 中 加 入 了 交换 操 
作 。 另 一 种 计算 编辑 距离 的 方法 是 基于 字符 串 A 到 B 的 最 长 公共 子 序列 (Longest 
Common Subsequence, LCS) ,通过 在 A 和 B 的 某 些 位 置 上 进行 删除 操作 能 够 构造 出 它 
们 的 最 长 公共 字符 串 , 这 时 的 编辑 距离 就 等 于 A 与 忆 的 长 度 之 和 减 去 它们 的 LCS 长 度 
的 两 倍 。 

编辑 距离 应 用 很 广 ,最 初 的 应 用 是 拼写 检查 和 近似 字符 串 匹 配 。 现 在 在 生物 医学 领 
域 ,科学 家 将 DNA ARA AS, GT 构成 的 字符 串 , 然 后 采用 编辑 距离 判断 不 同 DNA 
的 相似 度 。 另 一 个 很 好 的 用 途 是 在 语音 识别 中 , 它 被 当 作 一 个 评测 指标 。 语 音 测试 集 的 
每 一 句 话 都 有 一 个 标准 答案 ,可 以 利用 编辑 距离 判断 识别 结果 和 标准 答案 之 间 的 不 同 。 


7. 汉 明 距 离 


给 定 一 个 向 量 空间 , 汉 明 距离 (Hamming distance) 定 义 为 两 个 向 量 中 值 不 相同 分 量 
的 个 数 。 显 然 , 汉 明 距离 是 一 种 距离 测度 ,其 值 非 负 , 当 且 仅 当 两 个 向 量 相等 时 , 汉 明 距离 
为 0。 其 中 向 量 分 量 的 取 值 可 以 来 自任 意 集合 ,但 实际 使 用 时 常用 于 布尔 向 量 , 即 这 些 向 
量 仅仅 包含 0 和 1 的 取 值 。 

例 2-7 向 量 110110 和 向 量 101100 的 汉 明 距离 为 3, 因 为 这 两 个 向 量 的 第 2、3、5 位 
元 素 不 同 ,而 其 他 元 素 均 相同 。 


8. 余 了 弦 相 似 度 


几何 中 夹 角 的 余弦 也 可 用 来 衡量 两 个 向 量 在 方向 上 的 差异 ,在 数据 分 析 中 经 常用 余 
弦 相 似 度 (cosine similarity) 这 一 概念 来 衡量 样本 向 量 之 间 的 差异 。 余 弦 相 似 度 的 取 值 范 
围 为 [一 1,1]。 其 值 越 大 ,表示 两 个 向 量 的 夹 角 越 小 ,两 个 样本 相似 性 也 就 越 大 ;其 值 越 
小 ,表示 两 向 量 的 夹 角 越 大 ,两 个 样本 相似 性 也 就 越 小 。 当 两 个 向 量 的 方向 重合 时 , 夹 角 
余弦 取 最 大 值 1; 当 两 个 向 量 的 方向 完全 相反 时 ,余弦 相似 度 取 最 小 值 一 1。 

DRS n HERE AR Di] HEA Cory sitt ,Ti) 和 BCza Loz ,Xz) 的 余弦 相似 度 定义 为 


5 = AB $ 
sim(A,B) TTATIXITBIT (2-19) 
其 中 |1A1| 是 向 量 A 的 欧 几 里 得 范 数 ,定义 为 
ILA T= Vri + ari +o +23, (2-20) 


也 可 以 说 , 它 就 是 向 量 的 长 度 。 余 弦 值 为 0 BER AE 1 Ti BEE fi 90°. PRA VE, RI 
值 越 接近 1, 夹 角 越 小 ,向 量 之 间 的 匹配 也 就 越 大 。 
Bil 2-8 ”假设 有 两 个 词 频 向 量 ,x 一 {3,0.4,0,1,0,0,6,0},y 二 {1,0,3,0,0,2,0,1， 
0} ,可 以 使 用 式 (2-19) 来 计算 两 个 向 量 的 余弦 相似 性 。 
计算 过 程 如 下 : 
xe y=3X1+0X04+4X3+0X0+1X0+0X2+0X04+6X1+0X0=21 


Ilx ll= JP FO FP FOF FE FO FE +0 ~ 7.87 
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IL y l= VEFE +3? +0? +07 + 2? +0? +1? +0? = 3. 87 
sim(x.y) œ 0. 69 

由 上 述 计算 可 得 这 两 个 向 量 的 余弦 相似 度 为 0. 69, 具 有 较 高 的 相似 性 。 

在 以 上 所 介绍 的 相似 性 计算 公式 中 ,样本 所 属 空间 包括 欧式 空间 和 非 欧 空间 两 种 。 
欧式 空间 的 一 个 非常 重要 的 性 质 是 空间 中 点 的 平均 总 是 存在 的 ,并 且 也 是 空间 中 的 一 个 
点 ,例如 欧 氏 距离 的 计算 。 而 非 欧 空间 中 平均 就 没有 任何 意义 ,比如 Jaccard 相似 性 和 编 
辑 距离 等 。 余 弦 相 似 性 的 空间 可 以 是 欧式 空间 也 可 以 是 非 欧式 空间 ,如 果 向 量 的 分 量 是 
任何 实数 ,那么 此 时 就 位 于 欧式 空间 。 但 是 ,如 果 将 向 量 的 分 量 限定 为 整数 ,那么 就 是 非 
欧 空 间 。 

欧 氏 距离 是 判断 数据 对 象 相似 性 最 常见 的 距离 度量 方法 ,而 余弦 相似 度 则 是 最 常见 
的 相似 性 度量 ,很 多 的 距离 度量 和 相似 性 度量 都 是 基于 这 两 者 的 变形 和 衍生 ,所 以 下 面 将 
比较 两 者 在 衡量 个 体 差异 时 实现 方式 和 应 用 环境 上 的 区 别 。 

从 图 2-3 可 以 看 出 , 欧 氏 距离 衡量 的 是 空间 y 
各 点 间 的 绝对 距离 ,和 各 个 点 所 在 的 位 置 坐标 ( 即 
个 体 特征 维度 的 数值 ) 直 接 相关 ;而 余弦 相似 度 衡 
量 的 是 空间 向 量 的 夹 角 , 着 重 体现 在 方向 上 的 差 
异 , 而 不 是 位 置 。 如 果 保 持 A 点 的 位 置 不 变 ,B 点 
朝 原 方向 远离 坐标 轴 原 点 ,此 时 余弦 相似 度 cos 
是 保持 不 变 的 ,因为 夹 角 不 变 , 而 A、B 两 点 的 距离 
显然 在 发 生 改 变 , 这 就 是 欧 氏 距离 和 余弦 相似 度 
的 不 同 之 处 。 

根据 欧 氏 距离 和 余弦 相似 度 各 自 的 计算 方式 
和 特点 ,可 以 看 出 两 者 分 别 适用 于 不 同 的 数据 分 图 2-3 余弦 相似 度 与 欧 氏 距离 示意 图 
析 模 型 : 欧 氏 距离 能 够 体现 个 体 数 值 特征 的 绝对 
差异 ,所 以 常用 于 需要 从 维度 的 数值 大 小 中 体现 差异 的 分 析 , 如 使 用 用 户 行为 指标 分 析 用 
户 价 值 的 相似 度 或 差异 ;而 余弦 相似 度 侧 重 于 从 方向 上 区 分 差异 ,而 对 绝对 的 数值 不 敏 
感 , 多 用 于 通过 用 户 对 内 容 评 分 来 区 分 用 户 兴趣 的 相似 度 和 差异 ,同时 修正 了 用 户 间 可 能 
存在 的 度量 标准 不 统一 的 问题 。 


2.4.2 数据 相关 性 计算 方法 


世间 万 物 总 是 存在 不 同 程度 的 联系 。 例 如 身高 与 年 龄 .学 历 与 收入 或 考试 成 绩 与 学 
习 时 间 。 对 于 我 们 所 观察 到 的 数据 ,同样 可 能 存在 着 千 丝 万 缕 的 联系 。 本 节 将 介绍 数据 
相关 性 的 计算 方法 。 


1. RRB MARK 


皮尔 人 逊 相关 系数 (Pearson correlation coefficient) 也 称 为 简单 相关 系数 , 它 是 一 种 线 
性 相关 系数 ,是 描述 两 组 随机 变量 X 与 Y 相关 程度 的 一 种 方法 ,相关 系数 的 取 值 范围 是 
[一 1,1]。 相 关系 数 的 绝对 值 越 大 , 则 表明 X 与 Y 相关 度 越 高 。 负 值 表示 负 相 关 , 即 一 个 


dist(4, B) 
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变量 的 值 越 大 , 另 一 个 变量 的 值 反而 会 越 小 ; 正 值 表示 正 相 关 , 即 一 个 变量 的 值 越 大 , 另 一 
个 变量 的 值 也 会 越 大 。 要 注意 的 是 以 上 并 不 代表 变量 间 存 在 因果 关系 。 若 相关 系数 值 为 
0, 表 明 两 个 变量 间 不 是 线性 相关 ,但 有 可 能 是 其 他 方式 的 相关 (比如 曲线 方式 )。 其 计算 
公式 如 下 : 


D a-y- D @-X)Gi-Y 
r(X,Y) ET ist (2-21) 


m n Oxoy 














i=] i=l 


其 中 为 样本 个 数 ,六 MY 分 别 是 样本 集 X 和 了 的 均值 ,ox 和 oy 是 它们 的 标准 差 。 
2 斯 度 尔 曙 秩 相关 系数 


斯 皮尔 曼 秩 相 关系 数 (Spearman rank correlation coefficient) 与 皮尔 逊 相关 系数 一 
样 , 也 可 以 反映 两 组 变量 联系 的 紧密 程度 , 取 值 在 [一 1,1] 之 间 , 计 算 方法 上 也 完全 相同 ， 
不 同 的 是 它 建立 在 秩 次 的 基础 之 上 ,对 原始 变量 的 分 布 和 样本 容量 的 大 小 不 作 要 求 , 属 于 
非 参数 统计 方法 ,适用 范围 更 广 。 

设 Rnr,…vr) 表 示 X 在 (zi,z,…vz) 中 的 秩 ,QCa qq) 表示 了 在 (y， 
yery HAIER I X 和 了 具有 同步 性 ,那么 及 和 Q 也 会 表现 出 同步 性 ,反之 亦 然 。 
将 其 代 人 皮尔 逊 相关 系数 的 计算 公式 ,就 得 到 秩 之 间 的 一 致 性 ,也 就 是 斯 皮尔 曼 秩 相关 系 

















数 。 考 虑 到 ry tretra te tga n(n t+ 1) /2er7§ Hr tr Hai tgs +t 
二 n(n 十 1)(2n 十 1)/6, 斯 皮尔 曼 秩 相关 系数 可 以 定义 为 
24 ‘feel ae 2 
X.Y) —1— Slr =a’ +H =a)? 4 + On — gn)*] (2-22) 











n(n? —1) 

斯 皮尔 曼 秩 相关 系数 对 数据 条 件 的 要 求 没有 皮尔 逊 相关 系数 严格 ,只 要 两 个 变量 的 
观测 值 是 成 对 的 等 级 评定 数据 ,或 者 是 由 连续 变量 观测 数据 转化 得 到 的 等 级 数据 ,不 论 两 
个 变量 的 总 体 分 布 形 态 、 样 本 容量 的 大 小 如 何 , 都 可 以 用 斯 皮尔 曼 秩 相关 系数 来 进行 
研究 。 


3. 协 方差 


在 概率 论 和 统计 学 中 , 协 方差 用 于 衡量 两 个 变量 的 总 体 误 差 。 而 方差 是 协 方差 的 一 
种 特殊 情况 , 即 两 个 变量 相同 时 的 情况 。 现 实生 活 中 ,我 们 经 常 遇 到 多 维 数据 ,为 了 了 解 
两 个 维度 数据 间 是 否 有 一 些 联系 ,可 以 计算 其 协 方差 。 

期 望 值 分 别 为 E(X) 二 y 5 EY) =v 的 两 个 实数 随机 变量 X 与 Y 之 间 的 协 方 差 定 
LA 


cov(X,Y) = E(X —p)(Y—)) (2-23) 
其 中 ,EE 是 期 望 值 。 上 式 也 可 表示 为 
cov(X,Y) = E(XY) — wv (2-24) 


直观 上 来 看 , 协 方差 表示 的 是 两 个 变量 总 体 的 误差 ,这 与 只 表示 一 个 变量 误差 的 方差 
不 同 。 如 果 两 个 变量 的 变化 趋势 一 致 , 也 就 是 说 ,如 果 其 中 一 个 大 于 自身 的 期 望 值 , 另 一 
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个 也 大 于 自身 的 期 望 值 ,那么 两 个 变量 之 间 的 协 方差 就 是 正 值 ; 如 果 两 个 变量 的 变化 趋势 

相反 , 即 其 中 一 个 大 于 自身 的 期 望 值 , 另 一 个 却 小 于 自身 的 期 望 值 ,那么 两 个 变量 之 间 的 

协 方差 就 是 负 值 。 如 果 X 与 是 统计 独立 的 ,那么 二 者 之 间 的 协 方差 就 是 0。 但是, 反 

过 来 并 不 成 立 。 即 如 果 外 与 的 协 方差 为 0, 二 者 并 不 一 定 是 统计 独立 的 。 

Bl 2-9 求 两 组 向 量 x={6,4,7,10,8)5 ?一 (5,6,1,4,12} 的 协 方差 ,有 如 下 步骤 

Eœ) = 

5 十 6 十 1 十 4 十 12 _ 

一 一 


Ecay) = SOFAS TT ANE WOMAT SAT? L 39.4 


cov(x,y) = E(xy) — E(x) ECy) = 39.4—(7 Xx 5.6) = 0.2 
计算 得 到 两 组 向 量 协 方差 为 0. 2。 


25 数据 准备 


目前 比较 成 熟 的 数据 分 析 算 法 ,其 处 理 的 数据 集合 都 要 求 数据 完整 性 好 、 数 据 元 余 
少 , 属 性 之 间 的 相关 性 小 等 条 件 才 能 保证 分 析 的 质量 。 然 而 实际 系统 中 的 原始 数据 往往 
由 于 人 为 疏忽 、 设 备 异 常 或 抽样 方法 等 因素 ,常常 会 出 现 数 据 错误 ,数据 缺失 、 不 一 致 、 重 
复 或 矛盾 等 不 同情 况 , 如 果 直接 对 这 样 的 原始 数据 进行 分 析 , 很 难得 到 高 质量 的 数据 分 析 
结果 。 另 外 海量 的 实际 数据 中 无 意义 的 成 分 很 多 ,严重 影响 了 数据 分 析 算法 的 执行 效率 。 
通常 在 获取 了 原始 数据 之 后 ,需要 对 原始 数据 进行 相应 的 准备 工作 ,其 中 包括 选择 数据 、 
清洗 数据 ,数据 重 构 ,数据 整合 \ 数 据 归 约 和 变换 等 。 因 此 ,在 数据 分 析 之 前 如 何 准备 好 可 
用 数据 已 经 成 为 数据 分 析 系 统 实现 过 程 中 的 关键 问题 。 

数据 准备 的 主要 步骤 有 数据 清洗 数据 集成 ,数据 归 约 和 数据 转换 。 本 节 先 介绍 数据 
清洗 与 集成 ,然后 对 数据 归 约 技术 进行 一 些 探讨 ,最 后 讨论 关于 数据 转换 的 相关 知识 。 


2.5.1 数据 清洗 与 集成 


数据 清洗 (data cleaning) 的 主要 目的 是 填充 或 删除 遗漏 值 ,降低 噪声 与 识别 离 群 点 ， 
纠正 数据 的 不 一 致 。 数 据 集成 (data integration) 的 主要 目的 是 合并 来 自 多 个 数据 存储 中 
的 数据 ,解决 多 重 数据 存储 或 合并 时 所 产生 的 数据 不 一 致 .数据 重复 或 数据 宛 余 问题 ,有 
助 于 提高 后 续 数 据 分 析 过 程 的 准确 性 和 速度 。 以 上 两 种 数据 准备 的 步 又 有 着 不 同 的 处 理 
方法 ,分 别 阐述 如 下 。 


1. 数据 清洗 


1) 缺失 值 

缺失 值 为 遗漏 或 错误 的 数据 ,可 能 包括 人 为 或 计算 机 数据 输入 的 错误 ,输入 时 理解 错 
误 , 也 有 可 能 是 搜集 数据 的 设备 出 了 问题 ,转换 文件 时 出 了 问题 ,造成 数据 遗失 ,这 些 都 必 
须 在 数据 分 析 前 进行 清洗 ,以 降低 由 此 对 后 续 数 据 分 析 结 果 的 影响 。 怎 样 才能 为 缺失 的 


=7 











E(y) = 5.6 
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属性 填 上 值 ? 以 下 是 几 种 处 理 缺 失 数据 的 方法 : 

(1) 直接 删除 缺失 属性 的 记录 。 将 存在 缺失 信息 的 记录 删除 ,从 而 得 到 一 个 完整 的 
数据 集 。 但 是 这 种 方法 有 很 大 的 局 限 性 。 它 以 减少 数据 量 来 换取 信息 的 完备 ,有 可 能 会 
丢弃 大 量 对 数据 分 析 有 用 的 信息 。 

(2) 人 工 填写 。 对 于 特别 小 的 数据 集 ,这 样 做 当然 是 有 效 的 。 但 是 当 数 据 量 比较 大 
时 ,这 种 方法 显然 是 行 不 通 的 。 

(3) 使 用 全 局 常量 填充 缺失 值 。 把 每 个 缺失 的 值 都 用 一 个 全 局 常量 替换 ,但 是 这 样 
做 很 容易 干扰 分 析 结 果 。 

(4) 使 用 属性 的 中 心 趋势 度量 值 填充 缺失 值 。 中 心 趋势 度量 值 是 指 用 前 面 讨 论 过 的 
计算 属性 中 心 趋势 的 中 位 数 或 均值 等 方法 来 填充 。 

(5) 使 用 与 给 定 元 组 属于 同一 类 的 所 有 样本 的 属性 均值 或 中 位 数 填充 。 

(6) 使 用 最 有 可 能 的 值 填充 。 用 回归 或 使 用 贝 叶 斯 形式 化 方法 的 基于 推理 的 工具 或 
决策 树 归纳 确定 。 

以 上 第 4 种 方法 应 用 较 广 ,SPSS 的 Moduler 一 般 直 接 采 用 这 种 方法 进行 填写 ,通常 
对 于 数值 属性 用 均值 替换 , 标 称 属性 通常 用 众 数 蔡 换 , 序 值 属性 通常 用 中 位 数 蔡 换 。 第 6 
种 方法 也 是 使 用 较 广 的 一 种 方式 ,因为 它 使 用 已 有 的 数据 来 预测 缺失 值 ,因此 得 出 的 填充 
值 可 信和 度 更 高 。 

2) 识别 离 群 点 和 平滑 噪声 数据 

噪声 数据 (noise data) 是 指 测量 变量 中 的 随机 错误 和 偏差 。 它 可 能 会 影响 数据 分 析 
的 结果 。 引 起 噪声 数据 的 原因 有 很 多 ,可 能 是 因为 数据 收集 手段 ,数据 输入 问题 ,数据 传 
输 问题 等 。 那 么 ,给 定 一 个 数值 属性 ,怎么 才能 “光滑 ”数据 或 者 去 掉 噪声 ? 典型 的 方法 有 
以 下 几 种 : 

(1) 分 箱 法 (binning)。 

分 箱 法 通过 考察 数据 的 “近邻 ”( 即 周围 的 值 ) 来 光滑 有 序数 据 值 。 这 些 有 序 的 值 被 分 
布 到 一 些 箱 中 ,用 “ 箱 的 深度 ”表示 不 同 的 箱 里 有 数据 的 个 数 ,用 “ 箱 的 宽度 ”来 表示 每 个 箱 
值 的 取 值 区 间 。 由 于 分 箱 方法 考虑 相 邻 的 值 , 因 此 是 一 种 局 部 平滑 方法 。 一 些 常用 的 分 
箱 方 法 如 下 , 

。 等 宽 分 箱 。 将 变量 的 取 值 范围 分 为 上 《个 等 宽 的 区 间 ,每 个 区 间 当 作 一 个 分 箱 。 

。 等 频 分 箱 。 把 观测 值 按照 从 小 到 大 的 顺序 排列 ,根据 观测 的 个 数 等 分 为 & 部 分 ， 
每 部 分 当 作 一 个 分 箱 。 
基于 “均值 聚 类 的 分 箱 。 使 用 第 6 章 将 介绍 的 & 均 值 聚 类 法 将 观测 值 聚 为 & 类 ， 
但 在 聚 类 过 程 中 需要 保证 分 箱 的 有 序 性 , 即 第 一 个 分 箱 中 所 有 观测 值 都 要 小 于 第 
二 个 分 箱 中 的 观测 值 ,第 二 个 分 箱 中 所 有 观测 值 都 要 小 于 第 三 个 分 箱 中 的 观测 
值 , 等 等 。 

采用 上 述 方法 中 的 一 种 之 后 ,可 以 使 用 箱 均 值 光 滑 、 箱 中 位 数 光 滑 或 箱 边界 光滑 的 方 
法 来 平滑 噪声 ,用 一 个 例子 可 以 很 容易 地 理解 。 

例 2-10 假设 有 一 组 观测 值 : 8,9.30,24,10,15,24,7,28, 从 小 到 大 排序 得 : 7,8,9， 
10,15,24,24,28,30。 采 用 等 频 分 箱 将 该 组 值 分 为 3 箱 : 箱 1(7,8,9), 箱 2(10,15,24)， 
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箱 3(24,28,30) 。 
。 用 箱 平均 值 光滑 。 对 于 箱 1, 其 平均 值 为 8。 将 箱 1 中 的 所 有 值 其 换 为 8, 即 , 箱 1 
(8.8.8). 
。 用 箱 中 位 数 光滑 。 对 于 箱 2, 其 中 位 数 为 15。 将 箱 2 中 的 所 有 值 替 换 为 15, 即 , 箱 
2(15,15,15) 。 
。 用 箱 边界 光滑 。 对 于 箱 3, 箱 中 的 最 大 值 和 最 小 值 分 别 为 30 和 24, 箱 中 每 一 个 值 
都 被 最 近 的 边界 值 替 换 , 即 , 箱 3(24,24,30)。 
一 般 来 说 , 箱 的 区 间 范 围 越 大 ,光滑 效果 越 好 。 
(2) 回归 (Regression) 。 
用 一 个 函数 拟 合 数据 来 光滑 数据 ,这 种 技术 称 为 回归 。 回 归 分 析 中 ,只 包括 一 个 自 变 
量 和 一 个 因 变 量 , 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ,这 种 回归 分 析 称 为 一 元 线性 回归 
分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变量 , 且 因 变 量 和 自 变 量 之 间 是 线性 关 
系 , 则 称 为 多 元 线性 回归 分 析 。 
例 2-11 有 下 面 一 组 数据 : 
y=[20 20 21 22 22 22 23 24 26 28 56 34 43 45 45.37 
48.07 54.07 54.08 56.81 59.45] 
x=[14.81 15.34 16.13 17.6 18.59 20.3 21.52 22.49 24.2 25,22 
26.56 27.76 27.79 44.35 45,61 44.52 45.57 46.98 46.14 48,36] 
用 MATLAB 进行 线性 拟 合 ,图 2-4 中 的 直线 即 为 一 条 拟 合 线 。 
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图 2-4 线性 拟 合 图 


(3) 离 群 点 分 析 (Outlier analysis) 。 

在 样本 空间 中 ,与 其 他 样本 点 的 一 般 行 为 或 特征 不 一 致 的 点 称 为 离 群 点 。 可 以 通过 
像 聚 类 的 方法 来 检测 离 群 点 , 聚 类 可 以 将 相似 点 聚 成 徐 , 而 落 在 簇 外 的 点 被 视 为 离 群 点 。 
离 群 点 的 产生 可 能 是 计算 的 误差 或 者 操作 的 错误 引起 的 ,也 可 能 是 因为 数据 本 身 的 可 变 
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性 或 弹性 所 致 。 
例 2-12 对 于 例 2-11 的 数据 ,还 可 以 找 出 它 的 离 群 点 ,在 图 2-5 中 可 以 看 到 ,在 两 个 
KZ IMG 3 个 孤立 点 ,这 3 个 点 就 是 离 群 点 。 
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图 2-5 ARA 

2. 数据 集成 
1) 异常 数据 


当 数 据 分 析 的 数据 集 来 自 不 同 数据 源 时 ,会 出 现 许 多 不 同类 型 的 数据 异常 情况 ,因此 
保证 所 分 析 数 据 的 一 致 性 是 必须 考虑 的 问题 。 这 种 不 一 致 性 主要 表现 在 数据 对 象 名 称 与 
同类 型 其 他 数据 对 象 名 称 不 相符 ,数据 对 象 的 特征 与 其 他 同类 对 象 不 相符 以 及 数据 对 象 
特征 的 取 值 范围 不 一 致 等 ,这 些 都 属于 实体 识别 问题 。 如 何 才能 确保 来 自 多 个 数据 源 的 
实体 “匹配 ”? 首要 方法 是 分 析 各 个 数据 源 中 的 元 数据 ,每 个 数据 对 象 以 及 它们 特征 的 元 
数据 包括 名 称 、 含 义 ,数据 类 型 .属性 的 取 值 范围 以 及 空 值 规则 。 这 些 元 数据 可 以 用 来 帮 
助 避免 数据 集成 产生 的 错误 。 

2) 宛 余数 据 

宛 余 是 数据 集成 期 间 可 能 遇 到 的 另 一 个 重要 问题 。 一 个 属性 如 果 可 以 由 另 一 个 或 另 
一 组 属性 导出 , 则 这 个 属性 可 能 就 是 宛 余 的 。 属 性 的 元 余 容 易 造成 数据 量 过 大 ` 数 据 分 析 
时 间 过 长 .结果 不 稳定 的 问题 ,因此 如 何 判 别 宛 余 属 性 也 是 数据 集成 中 的 一 个 重要 步骤 。 
通常 会 采用 相关 性 分 析 手 段 来 检测 宛 余 。 例 如 给 定 两 个 属性 ,采用 前 面 介 绍 过 的 某 种 相 
关 性 判别 方法 度量 一 个 属性 能 在 多 大 程度 上 蕴含 或 依赖 男 一 个 属性 ,这 样 就 很 容易 鉴别 
出 哪个 是 元 余 属 性 了 。 

3) 重复 数据 

除了 检测 对 象 特征 间 的 元 余 外 ,还 应 检测 对 象 的 重复 。 重 复 是 指 对 于 同一 数据 集 , 存 
在 两 个 或 多 个 相同 的 数据 对 象 ,或 者 相似 度 大 于 阅 值 的 数据 对 象 。 这 通常 都 是 由 于 不 正 
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确 的 数据 输入 ,或 者 更 新 了 数据 后 ,以 前 陈旧 的 数据 没有 删除 等 导致 的 。 

数据 清洗 和 数据 整理 是 解决 数据 不 一 致 性 的 两 种 重要 方法 ,数据 的 不 一 致 可 能 导致 
数据 分 析 结 果 的 偏差 。 除 了 采用 上 面 介绍 的 各 种 方法 进行 人 工 纠 错 外 ,目前 已 经 有 许多 
商业 工具 可 以 帮助 我 们 检测 不 一 致 性 并 同时 予以 纠 错 。 数 据 清洗 工具 (data scrubbing 
tool) 使 用 简单 的 领域 知识 检查 并 纠正 数据 中 的 错误 ,它们 通常 采用 语法 分 析 和 模糊 匹配 
技术 完成 对 多 数据 源 数据 的 清理 。 常 见 的 数据 清洗 工具 有 : DataWrangler, 是 基于 网 
络 的 服务 ,是 斯 坦 福 大 学 的 可 视 化 组 设计 的 ,用 来 清洗 和 重 排 数据 ; OER rightdata, 是 
国内 第 一 个 以 SAAS 模式 提供 完整 地 址 数据 处 理 服务 流程 的 网 站 ; @OpenRefine ,前 身 
是 Google Refine, 它 是 一 个 开源 的 用 于 进行 数据 清理 的 工具 ,其 主要 功能 是 清洗 数据 以 
及 数据 转换 等 。 数 据 审计 工具 (data auditing tool) 可 以 通过 扫描 数据 发 现 规律 和 联系 ,并 
检测 违反 这 些 条 件 的 数据 来 发 现 偏差 ,类 似 这 样 的 数据 清洗 和 数据 审计 工具 在 很 多 商用 
的 统计 分 析 工 具 中 都 提供 了 ,可 以 根据 使 用 过 程 中 具体 情况 加 以 选择 。 


2.5.2 数据 归 约 


有 时 候 , 得 到 的 数据 集 非常 庞大 ,在 这 样 的 数据 集 上 进行 复杂 的 数据 分 析 是 非常 耗 时 
的 。 这 时 就 要 考虑 能 和 否 得 到 这 个 数据 集 的 一 个 简化 版 本 ,但 同时 又 不 会 影响 数据 分 析 的 
结果 。 数 据 归 约 (Data reduction) 技 术 有 助 于 得 到 简化 的 数据 集 , 它 小 得 多 ,但 是 仍 能 相 
对 地 保持 数据 的 完整 性 ,在 其 上 进行 数据 分 析 能 产生 与 在 原 数据 集 上 进行 分 析 几 乎 相同 
的 结果 。 

数据 归 约 技术 包括 维 归 约 、 数 量 归 约 和 数据 压缩 。 

维 归 约 (dimensionality reduction) 减 少 样本 空间 中 所 包含 的 属性 个 数 。 其 方法 包括 
小 波 变 换 . 主 成 分 分 析 以 及 属性 子 集 选择 ,前 面 两 种 是 把 原 数据 变换 或 投影 到 维 数 较 小 的 
样本 空间 中 ,而 后 者 是 通过 相关 性 等 方法 分 析 后 ,检测 样本 空间 中 不 相关 、 弱 相关 或 元 余 
的 属性 或 维 ,然后 予以 删除 。 

数量 归 约 (numerosity reduction) 用 替代 的 、 较 小 的 数据 集 表示 形式 替换 原 数 据 集 ， 
包括 参数 方法 或 非 参 数 方法 。 参 数 方法 就 是 为 数据 集 拟 合 一 个 描述 模型 来 估计 数据 ,使 
得 存储 形式 只 需要 存放 模型 参数 ,而 不 是 实际 的 数据 集 ,例如 各 种 回归 模型 。 非 参数 方法 
包括 直方 图 、 聚 类 和 抽样 等 。 

数据 压缩 (data compression) 使 用 不 同 变换 方法 以 得 到 原 数 据 的 压缩 形式 。 如 果 原 
数据 能 够 从 压缩 后 的 数据 重 构 ,而 不 损失 信息 , 则 该 数据 归 约 技术 称 为 无 损 压 缩 。 无 损 压 
缩 用 于 要 求 重 构 的 信和 号 与 原始 信和 号 完全 一 致 的 场合 。 一 些 常 用 的 无 损 压 缩 算法 有 赫 夫 曼 
(Huffman) 算 法 和 LZW(Lenpel-Ziv & Welch) 压缩 算法 。 如 果 只 能 近似 重 构 或 不 完全 
恢复 原 数 据 , 则 该 数据 压缩 技术 称 为 有 损 压缩 。 有 损 压 缩 广泛 应 用 于 语音 、 图 像 和 视频 数 
据 的 压缩 。 它 利用 了 人 类 对 图 像 或 声波 中 的 某 些 频 率 成 分 不 敏感 的 特性 ,允许 压缩 过 程 
中 损失 一 定 的 信息 ,虽然 不 能 完全 恢复 原始 数据 ,但 是 所 损失 的 部 分 对 理解 原始 图 像 的 影 
响 很 小 , 却 换 来 了 大 得 多 的 压缩 比 。 由 于 数据 压缩 方法 涉及 许多 压缩 算法 ,本 节 不 做 
介绍 。 
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1. 维 归 约 


1) 小 波 变换 

离散 小 波 变换 (Discrete Wavelet Transform ,DWT) 是 一 种 线性 信号 处 理 技术 , 当 用 于 数 
据 向 量 X 时 ,就 是 将 它 变换 成 数值 上 不 同 的 小 波 系数 向 量 X ,两 个 向 量具 有 相同 的 长 度 。 
当 把 这 种 技术 用 于 数据 归 约 时 ,每 个 样本 可 以 看 作 一 个 维 数据 向 量 , 即 X= Cay pty 
Ln) ,该 向 量 描述 了 数据 集 数据 样本 在 个 属性 上 的 测量 值 。 经 过 小 波 变换 后 得 到 的 数据 向 
量 长 度 与 原始 数据 向 量 的 长 度 相 等 ,但 是 其 中 一 半 是 代表 属性 的 , 另 一 半 是 对 属性 的 描述 ， 
称 为 小 波 系 数 。 可 以 通过 截断 小 波 变换 后 的 数据 向 量 , 保 留 大 于 用 户 设 定 的 某 个 阔 值 的 所 
有 人 小 波 系数 而 其 他 系数 置 为 0 的 方式 来 获得 近似 的 压缩 数据 。 这样, 结果 数据 向 量 表示 长 
度 可 以 减 小 ,使 得 在 小 波 空间 进行 计算 时 速度 能 够 加 快 。 该 技术 也 能 用 于 消除 噪声 ,而 不 会 
光滑 掉 数 据 的 主要 特征 ,可 以 有 效 地 用 于 数据 清理 。 对 于 变换 后 得 到 的 一 组 系数 ,可 以 使 用 
所 用 的 小 波 变换 的 逆 来 构造 原 数 据 的 近似 ,所 以 小 波 变换 属于 有 损 压 缩 。 

DWT 与 离散 傅 里 叶 变换 (Discrete Fourier Transform,DFT) 有 密切 关系 ,DFT 是 一 
种 只 涉及 正弦 和 余弦 的 信号 处 理 技术 。 相 对 于 DFT 来 说 ,DWT 是 一 种 更 好 的 有 损 压 缩 
方式 。 对 于 给 定 的 数据 向 量 ,如 果 DWT 和 DFT 保留 相同 数目 的 系数 ,DWT 将 提供 更 准 
确 的 原 数据 近似 。 而 且 DWT 比 DFT 需要 的 空间 更 小 ,局 部 细节 保留 的 效果 更 好 ,对 于 
稀 玖 或 倾斜 数据 以 及 具有 有 序 属性 的 数据 ,可 以 得 到 更 好 的 结果 。 

流行 的 小 波 变换 包括 Haar-2、Daubechies-4 和 Daubechies-6 变换 ,图 2-6 是 在 
MATLAB 平台 上 对 noissin 数据 集 进行 haar 小 波 变换 后 的 图 像 ,其 中 ca 和 cd 分 别 为 低 
频 系 数 向 量 和 高 频 系 数 向 量 。 

原始 信号 


haar(ca) 


NN 


100 150 20 250 300 350 40 450 3500 


haar(cd) 
> 


0 50 100 150 200 250 300 350 400 450 500 
图 2-6 haar 小 波 变换 
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应 用 离散 小 波 变换 的 算法 过 程 称 为 分 层 金字 塔 算法 (pyramid algorithm) ,离散 小 波 
变换 的 一 般 步 又 如 下 : 

(1) 输入 数据 向 量 的 长 度 工 必须 是 2 的 整数 备 ( 必 要 时 ,可 以 在 数据 向 量 后 加 0) 。 

(2) 每 个 变换 涉及 两 个 应 用 函数 : 平滑 和 差分 ,前 者 用 于 光滑 数据 ,经 常 使 用 求 和 或 
加 权 , 后 者 用 于 提取 数据 的 细节 特征 。 

(3) 两 个 函数 作用 于 输入 的 数据 向 量 ,产生 两 个 长 度 为 L/2 的 数据 集 。 

(4) 两 个 函数 递归 地 作用 于 前 面 循环 得 到 的 数据 集 ,直到 结果 数据 集 的 长 度 为 2。 

(5) 由 以 上 和 迭代 得 到 的 数据 集中 选择 满足 冰 值 的 值 作为 数据 变换 后 的 小 波 系数 。 

例 2-13 ”假设 有 一 组 数据 {8,6,3,5} ,对 其 进行 haar 小 波 变换 , 步 又 如 下 : 

(1) 求 均值 。 计 算 相 邻 数据 对 的 平均 值 ,结果 为 {7,4)。 

(2) 求 差 值 。 很 明显 ,用 两 个 数据 表示 所 有 数据 时 ,已 经 丢失 了 数据 部 分 信息 。 为 了 
能 重 构 出 所 有 数据 ,需要 存储 一 些 细节 系数 。 将 数据 对 的 第 一 个 数值 减 去 这 对 数值 的 平 
均值 可 得 第 一 个 细节 系数 为 1, 第 二 个 细节 系数 为 一 1。 此 时 可 以 用 两 个 平均 值 与 两 个 细 
节 系 数 表示 原始 数据 , 即 {7,4,1, 一 1)。 

(3) 重复 第 (1)、(2) 步 ,将 上 面 分 解 得 到 的 数据 进一步 分 解 为 {5. 5,1.5,1, 一 1)。 

通过 上 述 步 又 就 将 由 4 个 数据 点 组 成 的 数据 集 用 一 个 平均 数据 值 和 三 个 细节 系数 表 
示 出 来 了 。 

2) 主 成 分 分 析 

真实 的 数据 集 总 是 存在 各 种 各 样 的 问题 ,比如 噪声 或 者 宛 余 。 假 设 拿 到 一 个 数学 系 
的 本 科 生 期 末 考 试 成 绩 单 ,里 面 有 3 列 , 分 别 是 对 数学 的 兴趣 程度 、 复 习 时 间 和 考试 成 绩 。 
显然 要 学 好 数学 ,需要 有 浓厚 的 兴趣 ,所 以 第 二 列 与 第 一 列强 相关 ,第 三 列 和 第 二 列 也 是 
强 相关 。 那 是 不 是 可 以 合并 第 一 列 和 第 二 列 呢 ? 再 比如 , 拿 到 一 个 数据 集 , 样 本 特征 非常 
多 ,而 样本 个 数 特别 少 。 对 这 样 的 数据 集 做 数据 分 析 时 ,容易 产生 过 度 拟 合 问题 。 这 时 需 
要 一 种 特征 降 维 的 方法 来 减少 特征 数 ,降低 噪音 和 守 余 ,减少 过 度 拟 合 的 可 能 性 。 主 成 分 
分 析 (Principal Components Analysis. PCA) 的 方法 可 以 解决 上 述 问 题 。PCA 的 思想 是 
将 原来 数据 集中 的 n 维特 征 映射 到 k 维 上 (4 二 n), 这 上 维 是 全 新 的 正 交 特征 , 称 为 主 成 
分 ,它们 是 重新 构造 出 来 的 & 维 特征 ,而 不 是 简单 地 从 维特 征 中 去 除 其 余 n 一 k 维特 征 。 
主 成 分 分 析 通 过 搜索 & 个 最 能 代表 数据 的 A 维 正 交 向 量 (k<n) 将 原 数 据 投 影 到 一 个 小 得 
多 的 空间 上 ,导致 维 归 约 。 由 此 , 原 数据 在 投影 到 这 个 较 小 的 向 量 空间 后 ,每 一 个 数据 向 
量变 换 为 k 个 主要 成 分 向 量 的 线性 组 合 。 

主 成 分 分 析 基 本 过 程 如 下 : 

(1) 对 输入 数据 规范 化 ,使 得 每 个 属性 都 落 入 相同 的 区 间 。 

(2) 计算 个 标准 正 交 向 量 , 作 为 规范 化 输入 数据 的 基 , 这 些 向 量 称 为 主 成 分 。 

G) 对 主 成 分 按 “ 重 要 性 ”( 这 里 的 重要 性 是 按照 数据 的 方差 排序 ) 或 强度 降序 排列 。 

(4) 去 掉 较 弱 的 主 成 分 ,仅仅 使 用 最 强 的 主 成 分 , 重 构 原 数据 的 近似 。 

与 小 波 变 换 相 比 , 主 成 分 分 析 能 够 更 好 地 处 理 稀疏 数据 ,而 小 波 变换 更 适合 高 维 
数据 。 

例 2-14 假设 研究 某 一 问题 涉及 两 个 维度 : A 与 B, 其 中 A 单位 为 百 万 ,B 单位 为 
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万 。 得 到 的 原始 数据 矩阵 如 下 : 

12.5 586 

24 754 

X=] 15.3 850 

18 667 

31.2 750 
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55.90 242.65 
=| see ss ered 
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由 协 方差 矩阵 求解 主 成 分 ,得 到 结果 见 表 2-6. 
对 应 两 个 特征 值 的 标准 正 交 特征 向 量 见 表 2-7。 

















R26 主 成 分 结果 表 2-7 特征 向 量 
特征 值 解释 方差 比例 累积 比例 特征 值 1 特征 值 2 
9933.7607 0. 9950 0. 9950 0. 0246 0. 9997 
49. 9343 0. 0050 1. 0000 0. 9997 —0. 0246 
因此 ,所 得 的 主 成 分 的 表达 式 为 


Y, = 0, 0246(X, — X,) +0, 9997(X, — Xz) 
Y, = 0.9997(X, — X1) — 0. 0246(X, — X2) 
其 中 ,第 一 主 成 分 保留 了 原始 变量 99. 5% 的 信息 ,在 分 析 中 就 可 以 把 第 二 主 成 分 舍 掉 ,这 
样 达到 简化 问题 的 目的 。 第 一 主 成 分 与 原始 变量 的 因子 负荷 量 分 别 为 
VA 9933. 7607 
. 3297 
V 








eX) = Yn 0. 0246 X 
On 


Va, 





9933. 7607 0. 9871 














FiK, ji j 
pl y= ‘ee 0. 9997 X a 
由 此 可 知 ,第 一 主 成 分 反映 了 数据 集 98. 71% 的 信息 ,方差 较 大 的 维度 对 第 一 主 成 分 
起 了 主要 作用 。 
3) 属性 子 集 选 择 


有 时 候 ,要 处 理 的 数据 集 可 能 包含 非常 多 的 属性 ,而 这 些 属性 中 只 有 很 少 一 部 分 是 和 
当前 数据 分 析 任 务 有 关 的 。 这 时 ,可 以 人 工 选择 需要 的 属性 ,然而 大 部 分 情况 下 ,这 样 做 
是 不 现实 的 ,因为 有 时 候 可 能 并 不 能 确定 哪些 属性 有 用 。 而 过 多 宛 余 的 属性 意味 着 更 多 
元 余 的 数据 和 计算 量 的 增 大 ,这 也 会 降低 数据 分 析 的 效率 。 

属性 子 集 选 择 可 以 解决 上 述 问题 , 它 通过 删除 不 相关 或 元 余 的 属性 找 出 最 小 属性 集 ， 
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使 得 数据 集中 类 的 分 布 尽 可 能 地 接近 使 用 所 有 属性 得 到 的 类 分 布 。 在 子 集 选 择 中 ,需要 
选择 最 佳 子 集 ,其 包含 的 维度 最 少 . 但 对 正确 率 的 贡献 最 大 。 在 维度 较 大 时 ,可 以 采用 启 
发 式 方法 ,在 合理 的 时 间 内 得 到 一 个 合理 解 (但 不 是 最 优 解 ) :维度 较 小 时 ,对 所 有 子 集 做 
穷 举 检验 。 

XF n IREA 2" 个 可 能 的 子 集 , 通 过 穷 举 出 这 些 属 性 的 子 集 找到 最 佳 子 集 可 能 
是 不 现实 的 。 在 实践 中 ,一些 基于 贪心 策略 的 压缩 搜索 空间 的 启发 式 算法 往往 能 得 到 较 
好 的 结果 。 其 基本 方法 包括 逐步 向 前 选择 .逐步 向 后 删除 .逐步 向 前 选择 和 逐步 向 后 删除 
组 合 以 及 决策 树 归 纳 。 

(1) 逐步 向 前 选择 。 即 从 空 集 开 始 逐 渐 增 加 特征 ,每 次 添加 一 个 降低 误差 最 多 的 变 
量 , 直 到 进一步 添加 后 再 不 会 降低 误差 或 者 降低 很 少 为 止 。 同 时 可 以 用 浮动 搜索 ,每 一 步 
可 以 改变 增加 和 去 掉 的 特征 数量 ,以 此 来 加 速 。 

(2) 逐步 向 后 删除 。 从 所 有 变量 开始 ,逐个 排除 它们 ,每 次 排除 一 个 降低 误差 最 多 的 
变量 ,直到 进一步 的 排除 会 显著 提高 误差 。 如 果 预 测 估计 存在 许多 无 用 特征 时 ,逐步 向 前 
选择 更 可 取 。 

(3) 逐步 向 前 选择 和 逐步 向 后 删除 组 合 。 可 以 将 逐步 向 前 选择 和 逐步 向 后 删除 方法 
结合 在 一 起 ,每 一 步 选 择 一 个 最 好 的 属性 ,并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 

(4) 决策 树 归 纳 。 决 策 树 算法 最 初 是 用 于 分 类 的 ,这 些 方法 将 在 第 5 章 进行 讨论 。 
决策 树 归 纳 最 后 能 够 构造 一 个 类 似 于 流程 图 的 结构 ,其 中 每 个 内 部 ( 非 叶 ) 节 点 表示 一 
个 属性 上 的 测试 ,每 个 分 枝 对 应 于 测试 的 一 个 结果 ,每 个 外 部 ( 叶 ) 节 点 表示 一 个 类 预 
测 。 在 每 个 节点 上 ,算法 选择 “最 好 ”的 属性 ,将 数据 集 划 分 成 不 同 子 集 。 当 决策 树 归 
纳 用 于 属性 子 集 选 择 时 ,由 给 定 的 数据 构造 决策 树 , 出 现在 树 中 的 属性 形成 归纳 后 的 
属性 子 集 。 

在 以 上 的 属性 选择 方法 中 ,进行 误差 检测 时 应 在 不 同 于 训练 集 的 测试 集 上 做 ,因为 需 
要 得 到 检验 的 泛 化 准确 率 。 通 常 使 用 的 特征 越 多 ,一 般 训 练 误差 会 越 低 , 但 不 一 定 有 更 低 
的 验证 误差 。 属 性 子 集 选择 在 有 些 类 型 的 数据 分 析 中 不 能 用 于 进行 求 属性 子 集 的 操作 。 
比如 图 像 处 理 中 ,因为 个 体 像素 本 身 并 不 携带 很 多 识别 信息 ,能 够 携带 图 像 识 别 信息 的 通 
常 都 是 许多 像素 值 的 组 合 。 

男 外 为 了 能 够 发 现 数据 属性 间 联 系 的 缺失 信息 ,有 助 于 新 的 知识 发 现 和 数据 分 析 , 可 
以 基于 其 他 属性 进行 分 析 ,构造 一 些 新 属性 ,这 称 为 属性 构造 , 它 有 助 于 提高 准确 性 和 对 
高 维 数 据 结构 的 理解 。 


2. 数量 归 约 


1) 回归 分 析 

回归 分 析 (regression analysis) 是 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 
的 一 种 统计 分 析 方 法 ,运用 十 分 广泛 。 从 不 同 角度 对 回归 分 析 进 行 划 分 ,可 以 分 成 很 多 种 
类 。 例 如 ,按照 涉及 变量 的 多 少 , 分 为 一 元 回归 和 多 元 回归 分 析 ; 按 照 自 变 量 和 因 变 量 之 
间 的 关系 类 型 ,分 为 线性 回归 分 析 和 非 线性 回归 分 析 ; 按 照 因 变量 的 多 少 , 分 为 简单 回归 
分 析 和 多 重 回 归 分 析 。 如 果 在 回归 分 析 模 型 中 只 包括 一 个 自 变量 和 一 个 因 变量 , 且 二 者 
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的 关系 可 用 一 条 直线 近似 表示 ,这 种 回归 分 析 称 为 一 元 线性 回归 分 析 ; 如果 包 括 两 个 或 两 
个 以 上 的 自 变量 , 且 自 变量 之 间 存 在 线性 相关 性 , 则 称 为 多 元 线性 回归 分 析 。 

一 般 来 说 ,回归 分 析 的 实质 是 通过 规定 因 变 量 和 自 变量 来 确定 变量 之 间 的 因果 关系 ， 
建立 回归 模型 ,并 根据 实测 数据 来 求解 模型 的 各 个 参数 ,然后 评价 回归 模型 是 否 能 够 很 好 
地 拟 合 实测 数据 。 如 果 能 够 很 好 地 拟 合 . 则 可 以 根据 自 变量 作 进一步 预测 。 同 样 可 以 通 
过 为 数据 集 拟 合 回归 模型 给 数据 集 建 模 , 于 是 数据 集 就 可 以 被 压缩 成 只 需要 存储 对 应 模 
型 中 自 变量 的 属性 值 和 回归 模型 参数 ,而 由 模型 可 以 求 得 的 因 变量 的 属性 值 不 再 需要 存 
储 , 从 而 大 大 降低 数据 的 存储 量 。 

还 有 一 种 特殊 的 回归 模型 是 对 数 线性 模型 (log-linear model) , 它 可 以 描述 近似 离散 
的 多 维 概率 分 布 。 对 于 nn 维 样 本 的 数据 集合 ,可 以 把 每 个 样本 看 作 维 空间 中 离散 的 点 ， 
采用 对 数 线 性 模型 ,生成 基于 维 组 合 的 一 个 较 小 子 集 ,估计 多 维 空间 中 每 个 点 的 概率 ,从 
而 使 数据 集 从 高 维 数据 空间 降 到 低 维 数据 空间 。 

回归 分 析 不 仅 可 以 用 于 处 理 稀 朴 数据 ,而 且 可 以 处 理 倾斜 数据 ,其 中 线性 回归 模型 表 
现 最 佳 。 但 是 对 于 高 维 数据 而 言 ,线性 回归 模型 计算 量 很 大 ,而 对 数 线性 模型 表现 性 能 较 
好 ,可 以 处 理 10 维 左右 的 数据 集 。 

2) 直方 图 

直方 图 对 数量 的 归 约 采用 的 是 一 种 类 似 于 分 箱 的 技术 来 约 简 数据 的 规模 ,是 一 种 流 
行 的 简单 数量 归 约 形式 。 这 种 方法 是 将 属性 按照 取 值 范围 划分 为 不 相交 的 连续 区 间 ,每 
个 区 间 对 应 一 个 桶 。 可 以 用 一 个 桶 代表 属性 的 一 个 取 值 , 则 该 桶 称 为 单 值 桶 。 通 常 , 柄 和 
属性 值 的 划分 可 以 有 两 种 规则 : 等 宽 和 等 频 。 等 宽 直 方 图 的 每 个 桶 宽度 是 一 样 的 ,而 在 
等 频 直方 图 中 ,每 个 桶 的 频率 大 致 为 常数 ,也 就 是 说 ,每 个 桶 包含 的 邻近 数据 样本 个 数 大 
致 相同 。 

对 于 近似 稀疏 和 稠密 数据 以 及 高 倾斜 和 均匀 的 数据 ,直方 图 都 是 非常 有 效 的 。 单 值 
属性 直方 图 也 可 以 推广 到 多 个 属性 , 称 为 多 维 直方 图 (如 例 2-15) ,由 此 可 以 看 出 多 维 直 
方 图 能 够 描述 属性 间 的 依赖 关系 。 

例 2-15 假设 有 一 个 包含 3 个 维度 的 数据 集 , 各 个 数据 对 象 三 维 的 取 值 分 别 为 {1,2， 
1,3,355,3,2,251}+ {1019 3573 22 1 2020763106343452} ;使 用 MATLAB 
绘制 该 数据 集 的 多 维 直方 图 ,如 图 2-7 所 示 。 显 然 从 图 中 可 以 直观 地 看 出 该 数据 集 的 3 
个 维度 之 间 存 在 明显 的 倍数 关系 。 

3) RZ 

数据 分 析 中 的 聚 类 技术 也 能 够 用 于 数量 归 约 。 它 首先 把 数据 样本 看 做 对 象 ,进而 将 
对 象 划分 为 复 ,使 得 一 个 篮 中 的 对 象 “ 相 似 ”, 而 不 同 簇 之 间 的 对 象 “ 相 异 ”。 在 数量 归 约 
中 ,一 个 簇 中 的 所 有 数据 样本 可 以 用 这 个 簇 名 进行 替换 。 如 果 数 据 集中 的 数据 具有 聚集 
效应 , 聚 类 技术 非常 有 效 ; 但 是 当 数据 集中 噪声 比较 多 时 , 聚 类 技术 将 失去 有 效 性 。 第 6 
章 中 将 介绍 一 些 经 典 常 用 的 聚 类 算法 。 

4) 抽样 

除了 上 述 方法 ,还 可 以 用 抽样 方法 进行 数量 归 约 。 抽 样 能 够 使 得 大 型 数据 集 用 小 得 
多 的 随机 数据 子 集 来 蔡 代 。 常 用 的 抽样 方法 包括 : 
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图 2-7 多 维 直方 图 


(1) 简单 随机 抽样 。 假 设 一 个 数据 集中 样本 个 数 为 N, 如 果 每 个 样本 被 抽 到 的 概率 
相等 , 且 每 次 抽取 时 只 抽取 一 个 样本 ,这 样 的 抽样 方法 称 为 简单 随机 抽样 。 简 单 随机 抽样 
又 分 为 无 放 回 简单 随机 抽样 和 有 放 回 简单 随机 抽样 。 简 单 随机 抽样 适用 于 数据 集 较 小 的 
情况 。 

D 分 层 抽样 。 抽 样 前 将 数据 集 分 成 互 不 相交 的 层 , 然 后 按照 一 定 的 比例 从 各 层 中 
独立 抽取 一 定数 量 的 样本 ,这 样 的 抽样 方法 为 分 层 抽样 。 适 用 于 由 差异 明显 的 不 同 部 分 
组 成 的 数据 集 。 

(3) 聚 类 抽样 。 是 将 数据 集中 各 单位 归并 成 若干 个 互 不 交叉 、 互 不 重复 的 集合 , 称 为 
能 ,然后 以 饶 为 抽样 单位 进行 抽样 。 应 用 聚 类 抽样 时 ,要 求 各 簇 有 较 好 的 代表 性 , 即 能 内 
各 样本 的 差异 要 小 , 簇 间 差异 要 大 。 

采用 抽样 进行 数据 分 析 , 计 算 量 正比 于 样本 集 的 大 小 ,与 数据 集 大 小 无 关 。 而 其 他 数 
量 归 约 技术 都 需要 完整 地 扫描 数据 集 。 因 此 采用 抽样 进行 数量 归 约 的 数据 分 析 复 杂 度 仅 
随 数据 集 的 维 数 线性 地 增加 ,而 其 他 类 似 直方 图 的 数量 归 约 技术 的 复杂 度 会 随 维 数 n 
呈 指 数 增长 。 

2.5.3 数据 转换 

在 数据 准备 阶段 对 数据 进行 转换 有 可 能 使 得 分 析 过 程 更 有 效 , 得 到 的 模式 更 容易 理 
解 。 这 里 需要 说 明 的 是 ,数据 准备 中 的 数据 清洗 与 集成 ,数据 归 约 以 及 数据 转换 的 各 个 步 
又 并 不 是 严格 划分 的 ,这 些 阶 段 可 能 存在 很 多 重叠 ,前 两 种 在 前 面 就 已 经 介绍 过 了 , 剩 下 
的 数据 转换 过 程 , 其 策略 主要 包括 规范 化 和 离散 化 等 。 本 节 将 着 重 介绍 数据 转换 的 相关 
方法 。 


1. 数据 规范 化 
数据 规范 化 有 时 又 被 称 为 数据 标准 化 。 数 据 集中 数据 对 象 总 是 用 多 个 属性 特征 进行 
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描述 ,不 同属 性 常常 具有 不 同 的 单位 和 不 同 的 取 值 范 围 。 因 此 在 求 取 对 象 间距 离 时 ,不 同 
取 值 单位 的 属性 放 在 一 起 进行 运算 常 使 解释 发 生 困 难 。 例 如 ,第 1 个 属性 的 单位 是 kg， 
第 2 个 属性 的 单位 是 cm, 那 么 在 计算 绝对 距离 时 将 出 现 两 个 对 象 中 第 1 个 属性 之 差 的 绝 
对 值 ( 单 位 是 kg) 与 第 2 个 属性 之 差 的 绝对 值 (单位 是 cm) 相 加 的 情况 ,也 就 是 造成 5kg 
的 差异 和 3cm 的 差异 相 加 的 问题 。 另 外 ,不 同属 性 的 取 值 范围 也 可 能 相差 较 大 ,以 至 于 
造成 在 计算 对 象 间 绝对 距离 时 某 个 属性 所 占 的 比重 太 大 ,对 结果 的 影响 也 会 很 大 ,比如 第 
1 个 属性 的 取 值 范围 在 2% 一 4 之 间 ,而 第 2 个 属性 的 取 值 范围 都 在 1000~5000 之 间 。 
为 了 避免 单位 不 同和 取 值 范围 不 同 的 影响 ,数据 应 该 规范 化 或 标准 化 ,使 之 落 入 较 小 的 无 
量 纲 的 共同 区 间 ,比如 [一 1.0,1.0] 或 [0.0,1.0]。 

数据 的 规范 化 可 有 效 地 改进 涉及 距离 度量 的 算法 的 精度 和 有 效 性 。 对 于 采用 距离 度 
量 的 分 类 算法 和 聚 类 算法 ,数据 规范 化 是 特别 重要 的 步骤 。 例 如 ,使 用 神经 网 络 后 向 传播 
算法 进行 分 类 挖掘 ,对 于 训练 样本 中 每 个 属性 的 输入 值 规范 化 将 有 助 于 加 快 学 习 阶 段 的 
速度 ;对 于 基于 距离 的 方法 ,规范 化 可 以 帮助 防止 具有 较 大 值 域 的 属性 相 比 具有 较 小 值 域 
的 属性 权重 过 大 。 数 据 规范 化 的 方法 有 许多 ,这 里 着 重 讨 论 其 中 的 3 种 方法 : 最 小 -最 大 
规范 化 、z-score 规范 化 和 按 小 数 定 标 规范 化 。 

1) 最 小 -最 大 规范 化 

这 种 方法 对 原始 数据 进行 线性 变换 。 假 定 ming 和 maxa 分 别 为 属性 A 的 最 小 值 和 最 
大 值 。 最 小 -最 大 规范 化 通过 计算 

vf = — >M _(new_ max, 一 new_mina) + new_ min, (2-25) 
max, — ming 
将 A 的 值 v 映射 到 区 间 [new_mina ,new_maxa] 中 的 v'。 

最 小 -最 大 规范 化 能 够 保持 原始 数据 值 之 间 的 联系 ,但 是 如 果 数 据 集 中 新 增 的 数据 
在 A 属性 上 的 值 超出 了 A 的 原始 数据 值 域 .该 方法 将 无 效 。 最 小 -最 大 规范 化 方法 容易 
受到 离 群 点 的 影响 ,因为 离 群 点 很 可 能 是 属性 A 取 值 区 间 的 最 大 或 最 小 值 。 

例 2-16 2.7.6 节 中 ,数据 集 包含 5 个 维度 ,其 中 salary 和 salbegin 两 个 维度 的 取 值 
范围 相对 于 其 他 维 都 太 大 了 ,在 计算 数据 间距 离 之 前 ,需要 将 维度 标准 化 。 若 salary 的 最 
大 值 为 135 000 元 ,最 小 值 为 15 750 元 。 对 于 id 为 1 的 实体 ,其 salary 值 为 57 000 元 , 采 
用 最 小 -最 大 规范 化 方法 计算 如 下 。 

由 式 (2-26) 计 算 





57 000 — 15 750 
135 000 — 15 750 
则 该 实体 salary 属性 规范 后 的 结果 为 0. 35。 
2) z 分数 (z-score) 规 范 化 (或 零 均 值 规范 化 ) 
这 种 方法 基于 属性 的 均值 和 标准 差 来 进行 规范 化 。 其 计算 公式 如 下 : 
j = 2A (2-26) 
oa 
其 中 A 表示 属性 A 所 有 取 值 的 均值 ,oa 表示 属性 A 所 有 取 值 的 标准 差 。 当 不 知道 属性 
A 的 最 大 值 和 最 小 值 ,或 者 为 避免 离 群 点 的 影响 时 ,可 以 用 z-score 规范 化 。 


例 2-17 同样 对 于 例 2-16 中 的 salary 变量 ,其 均值 为 34 349 元 ,标准 差 为 16 928 


x A—0) +0 0. 35 
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元 ,对 于 id A 1 的 观测 值 57 000 元 ,可 以 用 z-score 方法 对 其 进行 规范 化 : 
57 000 — 34 349 ~ 1.34 
16 928 
得 到 规范 化 后 的 结果 为 1. 34。 
3) 小 数 定 标 规范 化 
这 种 方法 通过 移动 属性 值 的 小 数 点 位 置 进行 规范 化 。 小 数 点 的 移动 位 数 依赖 于 属性 
A 所 有 观测 值 中 的 最 大 绝对 值 。 其 计算 公式 如 下 : 


/ Vi 


p= (2-27) 


10 
其 中 ,j 是 使 得 maxo D1 的 最 小 整数 。 
例 2-18 对 于 例 2-16 中 的 salary 属性 ,因为 属性 最 大 绝对 值 为 135 000 元 ,所 以 在 
小 数 定 标 规范 化 时 ,将 每 个 属性 值 除 以 1000 000( 即 j 二 6)。 对 id 为 1 实体 的 属性 salary 
进行 小 数 定 标 规范 化 ,由 式 (2-27) 计 算 


57 000 
10° 








= 0. 057 
得 到 规范 化 后 的 值 为 0.057。 
2. 数据 离散 化 


数据 离散 化 是 指 把 连续 型 数据 切 分 为 若干 * 段 ,也 称 bin, 是 数据 分 析 中 常用 的 手 
段 。 在 营销 数据 的 分 析 挖掘 中 ,离散 化 应 用 非常 普遍 。 其 主要 原因 表现 为 以 下 两 点 : 

(1) 算法 输入 数据 的 需要 。 例 如 决策 树 Naive Bayes 等 算法 本 身 不 能 直接 使 用 连续 
型 数据 ,只 有 经 过 离散 化 处 理 之 后 才能 处 理 , 这 一 点 在 使 用 商用 统计 分 析 软 件 时 可 能 不 明 
显 。 因 为 大 多 数 此 类 软件 在 各 个 算法 使 用 时 已 经 内 建 了 离散 化 处 理 程序 ,所 以 从 使 用 界 
面 看 ,软件 可 以 接纳 任何 形式 的 数据 。 但 实际 上 ,软件 都 要 在 后 台 对 连续 型 数据 做 预 
处 理 。 

(2) 消除 极端 数据 的 影响 。 离 散 化 可 以 有 效 地 克服 数据 中 隐藏 的 缺陷 ,使 获得 的 分 
析 模 型 更 加 稳定 。 例 如 ,数据 中 的 离 群 点 或 噪声 是 影响 分 析 模 型 的 一 个 重要 因素 ,它们 会 
导致 模型 的 参数 过 高 或 过 低 ,而 离散 化 .尤其 是 等 距离 散 化 ,可 以 有 效 地 降低 离 群 点 和 品 
声 的 影响 。 

对 数据 进行 离散 化 切 分 的 原则 有 等 距 .等 频 . 聚 类 ,或 根据 数据 特点 等 而 定 。 其 中 等 
距 和 等 频 离散 化 类 似 于 前 面 介绍 的 噪声 光滑 技术 中 的 分 箱 法 。 

(1) 等 距离 散 化 。 将 连续 型 变量 的 取 值 范围 均匀 划 成 n 等 份 ,每 份 的 间距 相等 。 例 
如 ,在 电信 行业 客户 流失 分 析 中 ,客户 入 网 时 间 是 一 个 连续 型 变量 ,可 以 从 几 天 到 几 年 。 
可 以 采取 等 距 切 分 的 方法 把 1 年 以 下 的 客户 划分 成 一 组 ,1 一 2 年 的 客户 为 一 组 ,2 一 3 年 
为 一 组 …… 以 此 类 推 ,间距 为 一 年 。 

(2) 等 频 离散 化 。 将 观察 点 均匀 分 为 n 等 份 ,每 份 内 包含 的 观察 点 数 相同 。 设 该 电 
信 公 司 共 有 5 万 用 户 ,等 频 离散 化 首先 需要 按照 用 户 的 入网 时 间 顺 序 排列 ,排列 好 后 可 以 
按 5000 人 一 组 ,把 全 部 用 户 均匀 分 为 10 份 。 

等 距 和 等 频 离 散 化 在 大 多 数 情况 下 会 导致 不 同 的 结果 。 其 中 等 距离 散 化 可 以 保持 数 
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据 原 有 的 分 布 ,分 箱 数 越 多 ,对 数据 原貌 就 保持 得 越 好 。 但 是 当 存 在 对 于 划分 区 间 而 言 偏 
斜 极为 严重 的 离 群 点 时 ,这 种 离散 化 方法 是 不 适用 的 。 等 频 离散 化 则 把 数据 变换 成 均匀 
分 布 ,虽然 其 避免 了 等 距离 散 化 的 问题 ,但 其 可 能 将 观察 值 相同 的 数据 样本 分 在 不 同 的 箱 
内 。 不 论 是 等 距 还 是 等 频 离散 化 ,尽管 使 用 简单 ,易于 操作 ,但 是 都 需要 人 为 定义 所 划分 
的 区 间 个 数 ,因此 使 用 时 对 区 间 个 数 的 多 少 极为 敏感 。 

(3) 聚 类 离散 化 。 该 方法 包括 两 个 步骤 ,首先 将 连续 属性 的 值 用 聚 类 算法 划分 成 通 ， 
然后 将 聚 类 得 到 的 簇 再 进行 处 理 , 可 分 为 自 顶 向 下 的 分 裂 或 自 底 向 上 的 合并 策略 。 

(4) 有 监督 的 离散 化 。 使 用 上 面 介绍 的 3 种 离散 化 方法 通常 会 比 不 做 离散 化 效果 要 
好 ,但 是 如 果 使 用 附加 的 信息 (比如 类 标号 ) 进 行 有 监督 的 离散 化 ,常常 能 够 产生 更 好 的 结 
果 。 因 为 未 使 用 类 标号 信息 所 构造 的 区 间 常 常 存在 不 同类 对 象 的 混合 。 有 监督 的 离散 化 
通常 使 用 的 最 简单 方法 是 以 极 大 化 区 间 纯 度 来 确定 分 割 点 ,一 些 基于 统计 学 的 方法 常 被 
用 于 为 每 个 属性 值 分 隔 区 间 ,常用 的 划分 方法 有 卡 方 、. 信 息 增益 .基尼 指数 等 。 

虽然 已 有 了 很 多 离散 化 方法 ,但 是 没有 任何 一 种 离散 化 方法 具有 普 适 性 ,也 不 存在 哪 
一 种 离散 化 方法 得 到 的 结果 一 定好 于 其 他 离散 化 方法 ,因为 离散 化 本 身 就 是 一 个 NP 难 
问题 ,因此 使 用 时 一 定 要 根据 数据 集 的 特点 使 用 合适 的 离散 化 方法 ,以 取得 尽 可 能 好 的 离 
散 化 效果 。 


26 数据 统计 分 析 常 用 工具 介绍 


“ 工 欲 善 其 事 , 必 先 利 其 器 。 "对 于 数据 分 析 相 关 工 作 人 员 来 说 ,一 个 趁 手 的 工具 可 以 
节省 很 多 时 间 ,大 大 提高 工作 效率 。 对 于 学 生来 说 ,掌握 几 种 流行 的 统计 分 析 工 具 是 大 有 
益处 的 。 本 节 将 介绍 几 种 实用 的 统计 分 析 工 具 。2. 6. 1 节 是 Excel 统计 分 析 工 具 介绍 ， 
2. 6.2 节 介 绍 SPSS 统计 分 析 工 具 ,2. 6. 3 节 会 对 SAS 统计 分 析 工 具 做 简单 的 了 解 ， 
2. 6.4 节 简 要 介绍 统计 分 析 R 语言 。 


2.6.1 Excel 统计 分 析 工 具 


Microsoft Excel 是 微软 公司 的 办 公 软 件 Microsoft Office 重要 的 组 件 之 一 , 它 可 以 进 
行 各 种 数据 的 处 理 、 统 计 分 析 和 辅助 决策 操作 ,当前 已 经 广泛 地 应 用 于 管理 .统计 财经 、 金 
融 等 众多 领域 。 本 节 简 要 介绍 Excel 的 统计 分 析 工 具 。 

Excel 在 默认 情况 下 没有 将 统计 分 析 模 块 展示 在 快速 访问 工具 栏 , 所 以 首先 需要 找 
到 它 的 统计 分 析 工 具 。 

在 菜单 栏 右 击 , 找 到 自 定义 快速 访问 工具 栏 , 然 后 选择 “加载 项 ”, 如 图 2-8 所 示 。 

单 击 “ 转 到 ”按钮 ,出 现 如 图 2-9 所 示 界 面 ,然后 勾 选 “分 析 工 具 库 ”, 单 击 “ 确 定 ” 按 钮 
后 即 可 在 “数据 ”菜单 栏 看 到 “数据 分 析 ” 这 一 模块 ,如 图 2-10 所 示 。 

由 图 2-10 可 以 看 到 ,可 以 用 Excel 对 数据 进行 方差 分 析 、 相 关系 数 分 析 、 伟 里 叶 分 析 
和 夯 直 方 图 等 一 系列 操作 ,如 果 数 据 集 较 小 , Excel 统计 分 析 工 具 是 既 方便 又 实用 的 
选择 。 
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图 2-8 选择 “加 载 项 ” 
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2.6.2 SPSS 统计 分 析 工 具 


SPSS(Statistical Product and Service Solutions ,统计 产品 和 服务 解决 方案 ) 是 世界 著 
名 的 商用 统计 分 析 软 件 之 一 ,经 过 近 40 年 的 发 展 ,在 全 球 已 拥有 大 量 的 用 户 。1984 年 
SPSS 总 部 推出 了 世界 上 第 一 个 统计 分 析 软 件 微机 版 本 SPSS/PC 十 ,开创 了 SPSS 微机 系 
列 产品 的 开发 方向 , 极 大 地 扩充 了 它 的 应 用 范围 ,并 使 其 能 很 快 地 应 用 于 自然 科学 ,技术 
科学 、 社 会 科学 的 各 个 领域 。SPSS 有 很 多 优点 , 它 操 作 简便 ,功能 强大 ,具有 很 强 的 针对 
性 ,而 且 能 非常 美观 地 展现 统计 分 析 的 结果 。 

下 面 简要 介绍 SPSS 的 界面 及 主要 功能 ,希望 读者 对 SPSS 能 有 一 个 直观 的 认识 。 
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图 2-11 变量 视图 


启动 SPSS 后 ,可 以 看 到 它 的 主 界面 ,如 图 2-11 所 示 , 其 上 方 的 菜单 栏 有 11 个 选项 ， 
每 一 个 选项 都 能 完成 特定 的 功能 : 

“文件 ”菜单 用 于 新 建 SPSS 各 种 类 型 的 文件 .打开 文件 或 从 其 他 数据 源 读 入 文件 。 

“编辑 "菜单 包含 撤销 、 剪 切 、 复 制 、. 粘 贴 .查找 更改 SPSS 设置 等 操作 。 

“视图 ”菜单 主要 用 于 显示 或 隐藏 状态 行 .工具 栏 网 格 线 、 值 标签 以 及 改变 字体 等 。 

“数据 "菜单 用 于 对 SPSS 数据 文件 进行 操作 ,如 定义 变量 、 合 并 文件 、 转 置 变量 和 记 
录 或 产生 分 析 的 观测 值 子 集 等 。 

“转换 ”菜单 在 数据 文件 中 对 所 选择 的 变量 进行 变换 ,并 在 已 有 的 变量 值 的 基础 上 计 
算 新 的 变量 。 

“分 析 ” 菜 单 用 于 进行 各 种 统计 分 析 , 包 括 各 种 统计 过 程 , 如 回归 分 析 、 相 关 分 析 、 因 子 
分 析 等 。 

“直销 ”菜单 内 涵 一 些 市 场 营 销 相关 功能 。 

“图 形 " 菜 单 可 以 用 于 产生 条 形 图 、 饼 图 、 直 方 图 、 散 点 图 或 其 他 高 分 辨 率 的 图 形 以 及 
动态 的 交互 式 图 形 。 
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“实用 程序 ”菜单 可 以 显示 数据 文件 和 变量 的 信息 ,定义 子 集 ,运行 脚本 程序 , 自 定义 
SPSS 菜单 等 。 

SPSS 的 主 界面 就 是 它 的 编辑 窗口 。 对 于 SPSS 而 言 , 它 把 数据 编辑 窗口 分 成 了 两 张 
表 显 示 ,一 张 是 数据 视图 , 另 一 张 则 是 变量 视图 。 可 以 看 到 ,图 2-11 中 左下 角 有 两 个 选项 
卡 , 单 击 按钮 就 可 以 切换 两 种 视图 ,图 2-11 呈现 的 是 变量 视图 。 

数据 视图 可 以 直接 由 用 户 输入 数据 和 存放 数据 ,视图 的 左边 显示 的 是 个 案 的 序号 ,上 
边 显示 的 是 变量 的 名 称 , 变 量 视图 主要 是 用 来 存放 变量 的 ,其 中 包括 变量 名 称 、 变 量 类 型 、 
宽度 ,小 数 \ 标 签 、 值 缺失 、 列 、 对 齐 和 度量 标准 ,前 6 个 属性 的 定义 如 下 。 

名 称 : 数据 视图 中 变量 的 名 字 , 必须 以 字母 .汉字 或 者 @ 开 头 ,总 长 度 不 超过 8 个 
字符 。 

类 型 : 变量 的 类 型 ,一 共有 8 种 类 型 ,如 数值 型 .字符 串 型 .时 间 型 .逗号 型 等 。 

宽度 : 即 变量 取 值 所 占有 的 宽度 ,默认 为 8 位 。 

小 数 : 即 小 数 的 位 数 , 默 认为 2 位 。 

标签 : 对 变量 名 称 的 详细 说 明 。 

值 : 对 变量 取 值 的 说 明 ,可 以 类 似 Excel 数据 的 下 拉 菜 单 选择 ,并 且 可 以 由 数字 代替 
具体 的 值 ,如 图 2-12 所 示 , 其 中 输入 了 性 别 属性 的 取 值 说 明 。 





















































图 2-12 “ 值 标签 "对 话 框 


SPSS 虽然 操作 简单 ,数据 结果 美观 ,但 是 在 处 理 大 量 数据 时 速度 并 不 是 很 理想 。 
2. 6. 3 节 介绍 一 个 对 大 量 数据 而 言 更 快速 的 分 析 工具 一 一 SAS, 它 学 习 起 来 更 为 复杂 ,但 
是 可 以 应 用 于 大 数据 集 的 统计 分 析 。 


2.6.3 SAS 统计 分 析 工 具 


SAS (Statistical Analysis System) 是 一 个 模块 化 .集成 化 的 大 型 应 用 软件 系统 。 
SAS 系统 主要 完成 以 数据 为 中 心 的 四 大 任务 : 数据 访问 、 数 据 管理 ,数据 呈现 ,数据 分 析 。 
SAS 对 于 处 理 大 数据 具有 很 大 优势 ,在 金融 领域 SAS 使 用 非常 广泛 。 相 对 于 SPSS 
来 说 ,SAS 有 更 加 强大 的 绘图 工具 .而 且 可 以 编程 ,很 受 高 端 用 户 的 欢迎 ,但 是 SAS 是 最 
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难 掌握 的 统计 分 析 软 件 之 一 。 
图 2-13 即 为 SAS 打开 的 界面 .SAS 界面 的 主要 窗口 有 3 个 ,分 别 是 编辑 器 .日志 窗 
口 和 输出 窗口 。 


PE =o x 
ZRA A] RY) TAD SAR BAAR) BOM mMM 
v 本 OF anaran | MH tx Oe 





























| San xema || Se- (x50) | Ose (x50) |00 
图 2-13 SAS 主 界面 


编辑 器 窗口 是 用 来 编写 程序 的 , 它 在 SAS 中 起 着 主导 性 作用 ,因此 ,有 较 好 的 编程 基 
础 才能 更 好 地 使 用 SAS。 

日 志 窗口 是 对 编程 后 输出 过 程 的 分 析 , 如 果 结 果 出 错 , 日 志 里 会 以 红色 的 文字 标 出 ， 
还 有 警告 语句 会 以 绿色 的 文字 标 出 , 蓝 色 是 正常 。 查 看 日 志 有 助 于 查找 错误 。 

输出 窗口 是 对 输出 结果 的 显示 ,所 编程 序 的 结果 都 是 在 该 窗口 输出 。 

可 以 看 到 , 相 比 于 SPSS 来 说 ,SAS 界面 中 的 选项 更 少 ,这 意味 着 需要 自己 编程 实现 
大 部 分 的 工作 。 

SAS 程序 由 SAS 数据 步 (DATA Step) 和 过 程 步 (Proc Step) 组 成 。 数 据 步 是 用 
DATA 语句 开始 的 一 组 SAS 语句 ,其 作用 是 输入 数据 并 建立 SAS 数据 集 。SAS 数据 集 
的 后 缀 名 一 律 为 . sd2 ,并 不 出 现在 程序 中 。SAS 系统 只 能 分 析 SAS 数据 集 的 数据 。SAS 
数据 步 中 的 input 和 cards 语句 是 数据 步 中 的 专用 语句 。 其 中 input 语句 用 来 生成 变量 ， 
cards 语句 用 来 指明 数据 输入 的 开始 。 

过 程 步 是 用 PROC 语句 开始 的 一 组 或 几 组 SAS 语句 ,其 作用 是 激活 SAS 程序 ,并 对 
已 形成 的 SAS 数据 集 通过 过 程 步 中 的 语句 进行 统计 分 析 、 打 印 等 处 理 。SAS 程序 中 的 字 
符 串 或 数字 之 间 均 以 空格 隔 开 ,并 以 “;” 作 为 行 结束 符 。 

如 图 2-14 为 一 个 简单 的 SAS 程序 及 其 日 志 输 出 。 

虽然 SAS 功能 十 分 强大 ,但 也 因 其 高 昂 的 价格 而 让 一 些 中 小 企业 望而却步 。 对 于 如 
今朝 气 莲 勃 的 互联 网 行业 来 说 ,它们 更 喜欢 使 用 开源 的 软件 。 
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日 DATA case: 
INPUT x y z 
CARDS 
10 15 11 


13 18 19 
16 24 20 





PROC means; 
VAR x y z: 
RUN:| 


< 





图 2-14 A 


2.6.4 R 语言 统计 分 析 工 具 


R 诞生 于 1980 年 左右 ,是 S 语 言 的 一 个 分 支 , 在 统计 领域 广泛 使 用 ,可 以 认为 R 
AE S 语言 的 一 种 实现 ,而 S 语言 是 由 AT&T 贝尔 实验 室 开发 的 一 种 用 来 进行 数据 检 
索 、 统 计 分 析 和 作 图 的 解释 型 语言 。 

R 语言 拥有 一 套 完整 的 数据 处 理 、. 计 算 和 制图 软件 ,其 功能 包括 : 数据 存储 和 处 理 系 
统 ;数组 运算 工具 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ) ;完整 连贯 的 统计 分 析 工 具 ; 优 秀 
的 统计 制图 功能 ;简便 而 强大 的 编程 语言 既 可 以 操纵 数据 的 输入 和 输出 ,也 可 以 实现 分 支 
和 循环 结构 。 而 最 重要 的 是 R 语言 是 完全 免费 开源 的 ,所 以 对 于 很 多 中 小 型 公司 来 说 ,R 
语言 是 数据 分 析 的 首选 工具 。 

安装 好 及 语言 之 后 ,就 可 以 打开 其 自 带 的 RGui 开始 使 用 。 其 界面 如 图 2-15 所 示 。 

在 实际 应 用 中 ,一 般 不 会 直接 使 用 Rgui, 而 是 使 用 更 美观 .交互 更 人 性 化 的 RStudio， 
其 启动 后 界面 如 图 2-16 所 示 。 

RStudio 提供 的 辅助 功能 有 助 于 初学 者 顺利 地 输入 函数 ,比如 忘记 画图 函数 plot. 
输入 前 几 位 字母 ,如 pl, 再 按 Tab 键 ,会 出 现 所 有 已 安装 的 程序 包 中 以 pl 开头 的 函数 及 
简要 介绍 , 按 回 车 键 即 可 选择 。 同 时 Tab 键 还 可 以 显示 函数 的 各 项 参数 。 例 如 ,输入 
plot( ,RStudio 会 自动 补 上 右 括号 ) ,接着 按 Tab 键 则 显示 plot() 的 各 项 参数 。 上 下 键 可 
以 用 来 切换 上 次 运行 的 函数 ,RStudio 中 Ctrl 十 个 键 则 可 以 显示 出 最 近 运 行 的 函数 历史 
列表 ,如 果 想 重复 运行 前 面 刚 进行 的 命令 ,使 用 该 操作 非常 方便 。 

可 以 用 两 种 方式 来 编写 R 程序 : 命令 行 和 脚本 文件 。 
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R version 3.0.0 (2013-04-03) -- "Masked Marvel" 
Copyright (C) 2013 The R Foundation for Statistical Computing 


Platform: x86_64-w64-mingw32/x64 (64-bit) 


R 是 自由 软件 ， 不 带 任何 担保 - 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 , 
用 '1icense() ' 或 'licence() "来 看 艇 布 的 详细 条 件 - 


R 是 个 合作 计划 , babe are Sr T A. 
FB contributors ()' RS SES M9 
用 'citaticon()* MAE DRA T Lass meme. 
B: demo () "来 看 一 些 示范 程序 ， 用 'help() ' 来 阅读 在 线 帮 助 文件 ， 或 
a e Ee e 0" inm RE. 
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fA 2-15 RGui 界 面 























R version 3.0.0 (2023-04-03) -- “Masked Mar 
Copyright CE) 2013 Tha R Foundation for statistical Computing 
Platform: x86_64-w64-mingn32/x64 (64-bit) 

R 4s free software and comes with ABSOLUTELY NO WARRANTY. 


You are welcone to redistribute it under certain conditions. 
Type ‘license()* or “licence()’ for distribution details. 


A Globe trvrennent + 


R 1s a collaborative project with many contributors. 
Type 'contributors()' For nore information 
“citation()* on how to cite R or R packages in publications. 
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Reip, Sato for an WML browser interface to help. 
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图 2-16 RStudio 界面 


图 2-17 是 R 程序 的 命令 行 界面 ,在 这 个 界面 下 ,输入 一 
到 相应 的 输出 。 图 2-17 中 进行 了 


行 命令 后 按 回 车 键 就 可 以 得 


一 个 简单 的 加 法 运算 。 也 可 以 通过 脚本 的 形式 编辑 代 


码 。 在 菜单 栏 选择 File>New>R script 可 以 建立 一 个 R 脚本 文件 。 可 以 在 这 个 文件 里 


预先 编辑 一 


系列 的 代码 ,然后 再 执行 这 个 脚本 文件 。 更 详细 的 R 语言 的 使 用 将 在 第 8 章 
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中 介绍 。 


三 corwore =] 


Platform: x86_64-w64-mingw32/x64 (64-bit) 





R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type ‘license()" or ‘licence()’ for distribution details. 


R is a collaborative project with many contributors. 
Type ‘contributors()’ for more information 
“citation()’ on how to cite R or R packages in publications. 


Type ‘demo()' for some demos, "help()' for on-line help, or 
"help.start()' for an HTML browser interface to help. 
Type ‘q()' to quit R. 


> 2+1 
[1] 3 
>I 
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27 SPSS 案例 分 析 


本 节 对 美国 某 银行 雇员 状况 数据 集 进行 简单 的 SPSS 数据 处 理 与 分 析 , 包 括 数据 清 
洗 与 转换 、 方 差分 析 、 相 关 性 分 析 以 及 数据 间距 离 的 分 析 。 在 2.7. 1 节 , 首 先进 行 待 分 析 
数据 的 准备 ,2.7.2 节 介 绍 数据 的 录入 与 编辑 方法 ,2. 7. 3 节 是 数据 的 清洗 与 转换 相关 内 
容 的 实现 ,在 2.7.4 节 ,将 对 数据 进行 简单 的 方差 分 析 , 而 在 2. 7. 5 节 , 开 展 数据 的 相关 性 
分 析 实 现 , 最 后 数据 间距 离 的 分 析 将 在 2. 7. 6 节 探讨 。 


2.7.1 日 志文 件数 据 准 备 
一 般 来 说 ,获取 数据 的 途径 是 数据 库 、 数 据 仓 库 或 者 已 有 的 文件 。 在 本 节 的 例子 中 ， 


从 网 上 下 载 了 美国 某 银行 雇员 状况 数据 集 , 该 数据 集 包 含 了 474 个 雇员 的 身份 .工资 等 信 
息 。 具 体 属性 描述 见 表 2-8, 图 2-18 为 xls 格式 的 数据 集 。 


表 2-8 银行 雇员 数据 集 属性 描述 



































id | gender | bdate educ | jobcat salary | salbegin | jobtime | prevexp | minority| age 
雇员 受 教育 | 职务 当前 起 始 受 雇 过 去 | 是 否 少 
编号 | EA | 生日 | 程度 | 分 类 | 工资 | 工资 | 月 数 | 经 验 | 数 民族 | FP 





2.7.2 数据 录入 与 编辑 


有 了 数据 集 , 接 下 来 需要 将 数据 录入 SPSS 中 。 在 建立 数据 文件 之 前 ,首先 要 定义 变 
量 ,这 需要 打开 如 图 2-11 所 示 的 变量 视图 窗口 ,进行 变量 的 定义 。 按 顺序 依次 定义 变量 
名 、 变 量 类 型 .变量 标签 .变量 取 值 标签 .缺失 值 .变量 显示 格式 以 及 变量 的 测度 类 型 。 
图 2-19 是 对 本 数据 集 包 含 的 所 有 属性 定义 的 变量 。 

其 中 id 定义 为 数值 类 型 gender 定义 为 字符 串 。 当 所 有 变量 都 设 定 完毕 后 ,就 建立 
起 了 数据 文件 的 框架 , 接 下 来 就 是 将 数据 录入 数据 文件 。 
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id]gender bdate educ Jobcat salary salbegin Jobtime prevexp minority age fiiter_$] 
1m 03-Feb-1952) 15 3 $57,000 $27,000 98 144 0 52 0 
2m 23-May-1958 16 1 $40,200 $18,750 98 36 0 46 1 
3f 26-JuL1929 12 1 $21,450 $12,000 98 381 0 74 1 
4f 15-Apr-1947. 8 1 $21,900 $13,200 98 190 0 57 1 
Sim 09-Feb-1955 15 1 $45,000 $21,000 98 138 0 49 1 
6m 22-Aug-1958, 15 1 $32,100 $13,500 98 67 0 45 1 
7m 26-Apr-1956 15 1 $36,000 $18,750 98 114 0 48 1 
8f 06-May-1966 12 1. $21,900 $9,750 98 0 0 38 1 
9f 23-Jan1946 15 1. $27,900 $12,750 98 115 0 58 1 
10 f 13-Feb-1946 12 1 $24,000 $13,500 98 244 0 58 1 
Nf 07-Feb-1950 16 1 $30,300 $16,500 98 143 0 54 1 
12 m 11-Jan-1966 8 1 $28,350 $12,000 98 26 1 38 1 
13m 17Ju1960 15 1 $27,750 $14,250 98 34 1 43 1 
14 f 26-Feb-1949 15 1. $35,100 $16,800 98 137 1 55 1 
15m 29-Aug-1962 12 1 $27,300 $13,500 97 66 0 41 1 
16m 17-Nov-1964, 12 1 $40,800 $15,000 97 24 0 39 1 
17m 18-Ju-1962, 15 1 $46,000 $14,250 97 48 0 41 1 
18m 20-Mar-1956 16 3 $103,750 $27,510 97 70 0 48 0 
19 m 19-Aug-1962. 12 1 $42,300 $14,250 97 103 0 41 1 
20f 23-Jan-1940 12 1 $26,250 $11,550 97 48 0 64 1 
21f 19-Feb-1963 16 1 $38,850 $15,000 97 17 0 41 1 
22m 24-Sep-1940. 12 1 $21,750 $12,750 97 315 1 63 1 
23 f 15-Mar-1965 15 1 $24,000 $11,100 97 75 1 39 1 
24 f 27-Mar-1933. 12 1 $16,950 $9,000 97 124 1 71 1 
25 f O1Ju1942 15 1 $21,150 $9,000 97 171 1 61 1 
26m 08-Nov-1966 15 1 $31,050 $12,600 96 14 0 37 1 
27m 19-Mar-1954 19 3 $60,375 $27,480 96 96 0 50 0 
28m 11-Apr-1963 15 1 $32,550 $14,250 96 43 0 41 1 
29 m 28-Jan-1944. 19 3 $135,000 $79,980 96 199 0 60 0 
30 m 17-Sep-1961 15 1 $31,200 $14,250 96 54 0 42 1 
31 m 24-Feb-1964 12 1 $36,150 $14,250 96 83 0 40 1 
32 m 28-Jan-1954 19 3 $110,625 $45,000 96 120 0 50 0 
33 m 18-Mar-1961 15 1. $42,000 $15,000 96 68 0 43 1 
34m 02-Feb-1949 19 3 $92,000 $39,990 96 175 0 55 0 
35 m 22-Aug-1961 17 3 $81,250 $30,000 96 18 0 42 0 
bet A Ne? gs EN EO es 
图 2-18 数据 集 
Ee} me | Ne | ee ‘ft eel ey 对 齐 | wa 
id RE 4 0 属 员 编号 无 无 3 m4 BBX) 
igender am 1 0 EA x). 无 6 Ee BERN) 
bdate 日 其 10 0 生日 无 无 13 at 9 ee 
leduc il 2 0 受 教育 程度 年 ) (0,0 (Missi... 0 5 at di AF0) 
jobcat 数值 1 0 职务 分 类 (0, ORR)... 0 6 at fl (0) 
alary 美元 8 0 当前 工资 (50, missing... $0 8 at PRR 
salbegin 美元 8 0 起 始 工交 (50, missing... $0 8 mt PRR 
jjobtime 数值 2 0 RAR (0, missing)... 0 8 mt ra 
prevexp 数值 6 0 过 去 经 验 (月 ) (0, missing)... Æ 8 zt U: s 
minority RE 1 0 ABOWRE 0.5) 9 8 mt al FF (0) 
age BE 8 0 Ea 无 无 8 ms f ra 

















图 2-19 变量 定义 对 话 框 


单 击 数据 视图 按钮 ,可 以 看 到 以 上 所 定义 的 变量 都 在 表 的 顶端 显示 。 这 时 ,只 需要 将 
每 个 实体 的 数据 对 应 的 变量 值 一 一 输入 就 可 以 了 。 图 2-20 显示 了 输入 的 第 一 个 实体 
数据 。 

如 果 数 据 集 比较 大 ,手动 输入 变量 的 工作 量 将 会 非常 大 ,如 果 数 据 集 是 xls 格式 的 ， 
就 可 以 使 用 SPSS 的 数据 导入 功能 一 次 性 导入 所 有 数据 。 当 然 ,除了 xls 格式 数据 ,SPSS 
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bdate 
02/03/1952 















15 3 $57,000 


2-20 ”输入 个 案 数据 


还 可 以 导入 txt csv dat 等 格式 的 数据 。 
SPSS 采用 类 似 Excel 表格 的 形式 组 织 数 据 ,可 以 轻松 地 对 数据 进行 增 \ 删 、 改 、 查 等 
操作 。 


2.7.3 数据 清洗 与 转换 
1. 数据 清洗 


观测 值 的 缺失 往往 会 给 统计 分 析 带 来 许多 麻烦 ,尤其 是 在 时 间 序 列 分 析 中 更 是 如 此 。 
时 间 序 列 里 如 果 存 在 缺失 值 ,可 能 导致 一 些 变量 的 计算 不 能 进行 ,比如 在 计算 环比 和 定 基 
发 展 速度 的 时 候 , 假 如 时 间 序 列 里 有 缺失 值 , 由 于 系统 自动 将 数据 文件 中 数值 型 变量 的 缺 
失 值 视 为 0, 因 此 计算 中 有 可 能 会 出 现 除数 为 0 的 情况 。 除 了 时 间 序 列 中 的 缺失 值 , 其 他 
变量 类 型 的 缺失 值 也 会 对 统计 分 析 结 果 造成 一 定 的 影响 。 如 图 2-21 所 示 ,可 以 发 现 id 
为 43 的 实体 的 变量 salary 是 一 个 缺失 值 , 像 这 样 的 缺失 值 在 数据 集中 还 有 很 多 。 产 生 缺 
失 值 的 原因 可 能 是 录入 数据 时 的 失误 ,或 者 采集 数据 时 的 失误 ,或 者 其 他 原因 。 








43m 01/18/1964 12 1 ; $14,250 95 46 0 40| 





图 2-21 缺失 值 


选择 菜单 栏 “ 分 析 ” 一 “缺失 值 分 析 ” 命 令 ,然后 选择 想 要 分 析 缺 失 值 的 变量 名 , 单 击 确 
定 后 ,就 可 以 得 到 如 图 2-22 所 示 的 缺失 值 分 析 报 告 。 从 表 中 ,可 以 看 到 变量 salary 有 6 
个 缺失 值 , 占 总 数 的 1. 3% ,而 salbegin 有 3 个 缺失 值 , 占 总 数 的 0.6%。 并 且 系 统 自动 求 
出 了 这 两 个 变量 的 平均 值 和 标准 偏差 。 


单 变 最 统计 


ae nana 
pm | mens 


salary $34,349.04 | $17,037.075 
salbegin 471 | $16,994.79 $7,847.526 
a. 超出 范围 (Q1 - 1.5*IQR, Q3 + 1.5*IQR) 的 个 案 数 
图 2-22 缺失 值 分 析 


SPSS 提供 了 替换 缺失 值 功能 。 在 菜单 栏 选择 “转换 ”一 “替换 缺失 值 ”命令 ,可 以 看 
到 如 图 2-23 所 示 的 界面 。 

选择 需要 替换 缺失 值 的 变量 ,然后 选择 蔡 换 方法 。SPSS 提供 了 5 种 替换 策略 ,分 别 
是 序列 平均 值 .邻近 点 平均 值 . 邻 近 点 中 位 数 、 线 性 插值 以 及 邻近 点 线性 趋势 。 这 里 为 
salary 和 salbegin 两 个 变量 选择 的 替换 方法 是 取 邻 近 点 的 平均 值 。 如 图 2-24 所 示 ,id 为 
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artta x 


D BARES [id salary_1 = SMEAN(salary) 
ER [bdate] 
d 受 教育 程度 (年) [edud] 
dl RBH [odcat} 
L 当前 工资 [salaml 
L HALF [salbegin] 
L 受 尾 月 数 [obtimel 








名 称 和 方法 


Ai 经 月)prevexl| | EPO: baroni | 





di BEL WRK (minor..| | 方法 (M): asso =) 


L Fi lage] 
@ jobcat=1 (FILTER) [..| | Mi (38) 近 点 的 圈 度 : 


©U): 2 | Osu) 


图 2-23 “和 替换 缺失 值 ? 对 话 框 




















43 的 salary 变量 值 被 蔡 换 为 $34 349.0. 








图 2-24 替换 结果 


再 次 运行 缺失 值 分 析 , 可 以 看 到 如 图 2-25 所 示 的 结果 ,salary 和 salbegin 变量 已 经 没 
有 缺失 值 了 ,并 且 变 量 的 平均 值 和 标准 偏差 也 发 生 了 变化 。 


单 变 最 统 一 一 


一 一 一 一 
pm | mens 





salary 474 | $34,349.038 | $16,928.6721 
salbegin 474 | $16,994.788 $7,822.6003 
a. 超出 范围 (Q1 - 1.5*1OR, Q3 + 1.5*IQR) 的 个 素数 。 
图 2-25 缺失 值 替 换 后 的 分 析 结果 


2. 数据 转换 


在 做 统计 分 析 时 ,有 时 候 需 要 对 变量 进行 转换 以 达到 更 好 的 效果 。 例 如 ,在 回归 分 析 
中 经 常 需要 对 变量 做 对 数 化 处 理 。SPSS 提供 了 强大 的 变量 计算 功能 .新 变量 的 计算 可 
以 借助 计算 变量 功能 来 完成 。 

如 果 希 望 将 受 教育 程度 (educ) 转 换 成 受 教 育 等 级 (educ_lv) ,选择 菜单 栏 中 的 “ 转 
换 ” 一 “计算 变量 ”, 出 现 如 图 2-26 所 示 的 界面 ,选择 educ_lv 变量 ,在 “数字 表达 式 ” 输 入 框 
中 输入 计算 公式 “((5-MOD(educ,5)) 十 educ)/5”, 变 量 计算 结果 如 图 2-27 所 示 。 之 后 可 
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以 单 击 “ 类 型 与 标签 "按钮 , 设 定 这 个 转换 后 的 新 变量 的 类 型 和 标签 。 





Qie 





数字 表达 式 (E); 
= sa 


cy 











图 2-26 “计算 变量 对话 杠 









































2m 05/23/1958, 16 4 1 98 $40,200.0 $18,750.0 


id [bate educ | educ v T jobtime | saay | sabegn | prevexp | minority 
1m 02/03/1952 15| 3 % $57,000.0 $27,000.0 144 o 


36 0} 








图 2-27 变量 计算 结果 对 话 框 


通过 上 述 公式 , 受 教育 程度 按 5 年 划分 ,转换 为 相应 的 受 教 育 等 级 ,小 于 5 年 的 为 1 
级 ,小 于 10 年 且 大 于 等 于 5 年 的 为 2 级 ,以 此 类 推 。 其 实 , 可 以 看 出 ,这 相当 于 是 对 受 教 


育 程度 做 了 一 个 离散 化 操作 。 
2.7.4 数据 方差 分 析 


单 因素 方差 分 析 用 来 测试 某 一 个 控制 变量 的 不 同 水 平 是 否 给 观察 变量 造成 显著 差异 


和 变动 。 本 节 将 考察 不 同 的 受 教育 程度 是 否 对 起 始 工资 的 差异 造成 影响 。 


在 菜单 栏 选择 “分 析 ” 一 “比较 平均 值 ”一 “ 单 因素 ANOVA” 命 令 , 打 开 “ 单 因素 方差 
分 析 ” 对 话 框 。 如 图 2-28 所 示 , 分 别 选 择 因 变量 与 因子 ,并 单 击 “ 对 比 ” 按 钮 。 如 图 2-29 


所 示 ,输入 系数 1.0、0, 一 1 表示 对 比 第 一 组 和 最 后 一 组 。 





FARDA x 





L SRL [salary] 
2 过 去 经 验 上 月 )[pre 


dassunnim. HS) 
(iz) lwo) (a20) A) Lm) 








2-28 “ 单 因素 方差 分 析 ” 对 话 框 
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单 击 “ 继 续 ” 按 钮 ,选择 选项 。 如 图 2-30 所 示 ,分 别 选择 描述 性 、 方 差 同 质 性 检验 以 及 
平均 值 图 。 回 到 初始 界面 后 , 单 击 * 确 定 ? 按 钮 ,得 到 分 析 结果 ,如 图 2-31 所 示 。 










































































E SAR ANOVA: 对比 x RR ANOVA: EA X 
r Statistics 
四 Pej go st 
vsec] 
站 的 对 比 1 固定 和 随机 效果 (F) 
(LER) (Faw) 图 方差 同 质 性 检验 (H) 
Brown-Forsythe 
BLO): B 
©:[ | =e 
添加 (A) 
ERO) 图 平均 值 图 (M) 
ie) aR 
回 按 分 析 | 顺序 排除 个 案 (入 
O 按 列 表 排除 个 案 (L) 














图 2-29 “ 单 因素 ANOVA: 对 比 ”对 话 框 图 2-30 “ 单 因素 ANOVA, 选项 ”对 话 框 


图 统计 描述 
从 图 2-31 可 以 看 出 ,SPSS 对 每 组 数据 进行 了 统计 描述 ,包括 每 组 的 平均 值 标 准 偏 
差 ,标准 错误 以 及 平均 值 95% 置 信 区 间 的 下 限 与 上 限 值 。 可 以 看 出 明显 的 结论 : 受 教育 
程度 越 高 ,就 越 有 可 能 拿 到 更 高 的 起 始 工 资 。 
图 2-32 给 出 了 方差 分 析 结 果 , 其 中 包括 组 间 、 组 内 的 偏差 平方 和 , 均 方 .F 值 和 概率 
P 值 ,从 显著 性 水 平 的 P=0.05 看 出 ,各 组 间 均 值 在 0.05 水 平 上 有 显著 性 差异 。 
ANOVA 
起 始 工 资 


| | @ | "a | F | war | 





组 之 间 7928095205 3 | 2642698402 
组 内 2.102E+10 470 | 44715381.33 
总 计 2.894E+10 473 


图 2-32 方差 分 析 表 


图 2-33 是 以 受 教育 等 级 为 横 轴 , 以 起 始 工资 的 平均 值 为 纵 轴 的 散 点 图 ,从 图 中 可 以 
直观 地 看 出 各 组 均值 的 分 布 。 


40 000.0 


35 000.0 


30 000.0 


的 平均 值 /美元 


25 000.0 
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2.7.5 数据 相关 性 分 析 


相关 分 析 (correlation analysis) 是 研究 对 象 之 间 是 否 存在 某 种 依存 关系 及 相关 程度 
的 一 种 统计 方法 。 在 统计 学 上 ,两 个 连续 型 变量 的 关系 多 以 线性 关系 进行 分 析 , 线 性 关系 
分 析 是 用 直线 方程 的 原理 来 估计 两 个 变量 关系 的 强度 ,比如 常见 的 相关 系数 就 是 刻画 两 
个 变量 线性 相关 关系 的 指标 ,相关 系数 越 大 表示 线性 关系 越 强 ,相关 系数 越 小 表示 线性 关 
系 越 弱 。 本 节 对 起 始 工 资 与 当前 工资 之 间 的 相关 性 进行 分 析 。 

选择 分 析 ”- 盖 相关 ”一双 变量 "打开 双 变 量 相 关 性 窗口 ,如 图 2-34 所 示 , 选 择 起 始 
工资 与 当前 工资 添加 入 变量 框 。 选 择 Pearson 相关 系数 ,点 击 确定 得 到 分 析 结 果 如 
图 2-35 所 示 。 

从 图 2-35 的 结果 看 出 ,当前 工资 与 起 始 工 资 相关 系数 达到 0. 868 ,说 明 这 两 个 变量 之 
间 具 有 较 强 的 相关 性 ,并 且 呈 正 相 关 。 





L SMIW [salan] 
P 起 始 工 资 [salbegin] 


FRA ljobtime] 
L 过 去 经 验 月 ) pre 
di 2B (mi. | 














图 Pearson F Kendall's tau-b F] Spearman 























Sete 
图 双 尾 检验 (TD) 加 单 尾 检验 (L) 














图 标记 显著 性 相关 (E) 
Laz Jumo) aze) La LE | 


图 2-34 “ 双 变 量 相关 性 ”对 话 框 








2.7.6 数据 间距 离 分 析 


在 统计 学 领域 或 者 数据 挖掘 领域 ,通常 用 距离 来 描述 样本 之 间 的 相似 关系 。 一 般 将 
样本 视 为 P 维 空间 的 点 ,并 在 该 空间 定义 点 与 点 之 间 的 距离 ,将 距离 较 近 的 点 归 为 一 类 ， 
距离 较 远 的 点 视 为 属于 不 同 的 类 。 

本 节 将 选择 educ( 受 教育 程度 ) ,jobtime( 受 雇 月 数 )、salary( 当 前 工资 )、salbegin( 起 
始 工资 ) .prevexp( 过 去 经 验 ) 这 5 个 变量 作为 距离 测量 的 5 个 维度 。 
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一 一 一 一 一 一 Pearson 相 全 性 .868 
wat OWE) .000 

474 

a 





起 始 工资 Pearson 相 估 性 
“a ( 双 尾 ) 


ERATE ( 双 测 ) 为 0.01 时 ， 相 估 性 是 显著 的 。 
图 2-35 相关 性 分 析 结 果 


首先 在 菜单 栏 选择 “分 析 ” 一 “相关 ”一 “距离 ”, 打 开 如 图 2-36 所 示 的 “距离 ”对 话 框 ， 
可 以 看 到 ,上 述 5 个 变量 已 经 添加 进 了 变量 栏 。 在 计算 距离 栏 内 选择 “个 案 间 ”, 即 计算 观 
测量 之 间 的 距离 。 测 量 栏 选 择 不 相似 性 ,系统 默认 使 用 Euclidean 距离 测度 观测 量 或 变 
量 的 不 相似 性 。 单 击 * 测 量 ? 按 钮 ,进入 如 图 2-37 所 示 的 “距离 : 非 相似 性 测量 ”窗口 , 度 
量 标 准 选择 “区 间 ” 单 选 按钮 下 的 “测量 ”列表 框 中 的 “Euclidean 距离 ” 因为 salary 与 
salbegin 数值 普遍 很 大 ,为 了 不 过 于 影响 距离 测度 ,应 对 所 有 的 变量 进行 标准 化 处 理 。 如 
图 2-37 所 示 , 在 “标准 化 ” 栏 里 选择 “范围 0 至 1”, 则 系统 自动 将 每 个 观测 量 值 减 去 它们 的 
最 小 值 ,然后 除 以 极 差 ,将 它们 标准 化 到 0 一 1 之 间 。 


 ZRAM ljobtime) 


& 过 教育 等 级 [educ_M] 
ol 职务 分 类 [jobcal] 

fl 是否 少数 民族 [minor 
L Fit lage] 

@ jobcat=1 (FILTER) [... 





图 个 案 间 (C) 加 变量 间 (B) 





[测量 
© 非 相似 性 (D) O 相似 性 (S) 


(MEW) Eucticean seam 
(we) ke) IE 


2-36 “距离 ”对 话 框 
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Bes 非 相似 性 测量 x 
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WEW: Euclidean gm 二 
w ja > RR: |2 > 
O Hao 
wau: Faes =| 
© =5 类 @) 
测量 (M)，|Euclidean 路 高 ”| 
FEE) |1 FFEA): 0 
[转换 值 换 测量 
rete Gia || 口 et 
更 改 符号 (H) 
图 按照 变量 (V) 
重新 标 度 到 0-1 ŻEE) 
加 按照 个 案 (C) = 








2-37 “距离 : 非 相似 性 测量 ”对话 框 


设置 完成 后 单 击 “ 确 定 ” 按 钮 ,进入 计算 分 析 。 运 行 完毕 后 ,会 输出 一 个 474X474 的 
和 矩阵 ,如 图 2-38 所 示 ,该 矩阵 是 一 个 对 称 和 矩阵 ,包含 了 所 有 数据 点 对 之 间 的 距离 。 
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2-38 距离 矩阵 


以 上 就 是 本 节 SPSS 分 析 实 例 的 所 有 内 容 , 对 于 实际 应 用 来 说 ,掌握 这 些 是 远 远 不 够 
的 ,本 节 内 容 希 望 起 到 一 个 抛砖引玉 的 效果 。 
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数据 分 析 的 标准 流程 分 为 以 下 几 步 : 数据 分 析 问 题 的 理解 ,相关 数据 的 理解 , 相 
关 数 据 的 准备 ,分 析 模 型 的 建立 ,分 析 模 型 的 评估 ,分 析 结 果 的 部 署 。 

一 般 来 说 ,准确 性 完整 性 一致 性 .时效 性 等 指标 是 评价 数据 质量 最 常用 的 标准 。 
获取 的 数据 集 都 由 一 个 一 个 数据 对 象 组 成 ,每 一 个 对 象 都 代表 一 个 实例 。 属 性 是 
一 个 字段 ,表示 数据 对 象 的 一 个 特征 。 

标 称 属性 的 值 是 符号 或 事物 的 名 字 , 其 中 每 个 值 代表 某 种 类 别 ,编码 或 状态 。 

二 元 属性 是 仅 有 两 种 可 能 的 状态 (0 或 1, 真 或 假 ) 的 标 称 属 性 。 如 果 两 个 状态 同 
等 重要 , 则 它 是 对 称 的 ,否则 是 非 对 称 的 。 

序 值 属性 是 其 可 能 值 之 间 具 有 有 意义 的 序 或 排 位 ,但 相继 值 之 间 的 量 值 未 知 的 
属性 。 

数值 属性 是 最 常用 的 一 种 数据 类 型 , 它 是 可 度量 的 ,用 整数 或 实数 值 表 示 , 它 定量 
地 描述 对 象 。 

数据 的 中 心 趋势 度量 是 指 一 组 数据 向 某 一 中 心 值 靠 拢 的 倾向 ,测度 中 心 趋势 就 是 
要 寻找 数据 一 般 水 平 的 代表 值 或 中 心 值 。 中 心 趋势 度量 一 般 包 括 数据 的 中 值 .中 
位 数 ,均值 与 中 列 数 。 

数据 的 离散 趋势 度量 反映 了 数据 集中 的 值 远离 其 中 心 值 的 程度 ,因此 也 可 以 叫做 
离 中 趋势 度量 ,主要 有 极 差 ,分 位 数 、 五 数 概括 、 方 差 和 标准 差 等 几 种 度量 方法 。 
对 象 相似 性 和 相 异 性 度量 用 于 聚 类 分 析 、 离 群 点 分 析 、 最 近邻 分 类 等 数据 挖掘 应 
用 中 。 度 量 方法 包括 Jaccard 系数 、 欧 几 里 得 距离 .曼哈顿 距离 . 切 比 雪夫 距离 、 闵 
可 夫 斯 基 距 离 ,. 汉 明 距 离 、 编 辑 距离 以 及 余弦 相似 性 。 

关于 数据 相关 性 ,本 章 主 要 介绍 了 皮尔 逊 相关 系数 .斯 皮尔 曼 秩 相关 系数 及 协 
方差 。 

数据 清洗 试图 填补 缺失 值 ,光滑 噪声 ,同时 识别 离 群 点 ,并 纠正 数据 的 不 一 致 性 。 
数据 集成 将 来 自 多 个 源 的 数据 整合 成 一 致 的 数据 存储 。 该 过 程 中 需要 解决 异常 
数据 ,元 余数 据 及 重复 数据 。 

数据 归 约 包括 维 归 约 、 数 量 归 约 和 数据 压缩 。 维 归 约 减少 样本 空间 中 所 包含 的 属 
性 个 数 。 其 方法 包括 小 波 变 换 、 主 成 分 分 析 以 及 属性 子 集 选 择 , 前 面 两 种 是 把 原 
数据 变换 或 投影 到 维 数 较 小 的 样本 空间 中 ,而 后 者 是 通过 相关 性 等 方法 分 析 后 ， 
检测 样本 空间 中 不 相关 、 弱 相关 或 宛 余 的 属性 或 维 , 然 后 予以 删除 。 数 量 归 约 用 
车 代 的 、 较 小 的 数据 集 表示 形式 蔡 换 原 数 据 集 ,包括 参数 方法 或 非 参 数 方法 。 参 
数 方法 就 是 为 数据 集 拟 合 一 个 描述 模型 来 估计 数据 ,使 得 存储 形式 只 需要 存放 模 
型 参数 ,而 不 是 实际 的 数据 集 , 例 如 各 种 回归 模型 ; 非 参数 方法 包括 直方 图 . 聚 类 
和 抽样 等 。 数 据 压 缩 使 用 不 同 变换 方法 以 得 到 原 数 据 的 压缩 形式 。 无 损 压 缩 用 
于 要 求 重 构 的 信号 与 原始 信号 完全 一 致 的 场合 。 一 些 常用 的 无 损 压 缩 算法 有 趟 
夫 曼 算法 和 LZW 压缩 算法 。 如 果 只 能 近似 重 构 或 不 完全 恢复 原 数据 , 则 该 数据 
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Ra moma DA 
归 约 技术 称 为 有 损 压 缩 。 有 损 压 缩 广泛 应 用 于 语音 、 图 像 和 视频 数据 的 压缩 。 


2 习 题 


1. 获取 数据 的 主要 途径 有 哪些 ? 

2. 数据 质量 的 评价 标准 有 哪些 ? 请 分 别 简要 描述 。 

3. 有 一 组 已 经 排序 的 数据 如 下 : 5,10,11,13,15,35,50,55,72,92,204,215, 如 果 采 
用 等 频 分 箱 将 这 些 数据 划分 为 4 个 箱 ,15 在 第 几 个 箱子 内 ? 

4. 请 分 别 介绍 均值 .中 位 数 和 截断 均值 在 反映 数据 中 心 方面 的 特点 。 

5. 计算 数据 16,17,19,22,23,24,29,33,34,39 的 均值 .中 位 数 . 四 分 位 数 和 标准 差 。 

6. 已 知 某 班 20 名 学 生 的 数学 成 绩 分 别 为 64,65,67,70,71,75,75,75,76,77,78,79， 
79,79,80,81,82,84,85,90。 

(1) 求 该 组 成 绩 的 中 位 数 、 众 数 和 极 差 。 

(2) 画 出 该 组 成 绩 的 盒 图 。 

7. 在 数据 挖掘 中 为 什么 要 对 原始 数据 进行 预 处 理 ? 数据 预 处 理 中 填补 空缺 值 的 方 
法 有 哪些 ? 

8. 计算 数值 属性 相似 性 的 常用 方法 有 哪些 ? 它们 各 有 何 优 缺 点 ? 

9. 设 x、y 为 向 量 。 

(1) x 二 (1,1,1,1),y 二 (2,2,2,2) , 求 余 弦 相 似 度 和 欧 氏 距离 。 

(2) x 二 (0,1,0,1),y 二 (1,0,1,0), 求 余弦 相似 度 和 欧 氏 距离 。 

G) x 二 (2, 一 1,0,2,0, 一 3),y 二 (一 1,1, 一 1,0,0, 一 1), 求 余弦 相似 度 。 

10. 给 定 两 个 向 量 对 象 ,分 别 表示 为 p1(1,3,1.5,1) 和 ps(2,4,6,8,9)。 

(1) 计算 两 个 对 象 之 间 的 欧 氏 距离 。 

(2) 计算 两 个 对 象 之 间 的 曼哈顿 距离 。 

(3) 计算 两 个 对 象 之 间 的 切 比 雪夫 距离 。 

11. 给 定 3 个 向 量 对 象 ,分 别 表示 为 种 (0,0) .ps(1.0) 和 ps (0,2). 

(1) 计算 两 两 间 的 欧 氏 距离 。 

(2) 计算 两 两 间 的 曼哈顿 距离 。 

(3) 计算 两 两 间 的 切 比 雪夫 距离 。 

(4) 计算 两 两 间 的 闵可夫 斯 基 距离 (以 变 参 数 为 2 的 欧 氏 距离 计算 ) 。 

12. 计算 ,1,0)、(1, 一 1,0) 和 (一 1,1,0) 两 两 之 间 的 Jaccard 相似 度 。 

13. 简要 说 明 数 据 准备 的 主要 步骤 有 哪些 。 

14. 在 数据 清洗 中 ,处 理 数据 缺失 的 方法 有 哪些 ?如 何 去 掉 数 据 的 噪声 ? 

15. 简 述 主 成 分 分 析 的 具体 步骤 。 

16. 常用 的 抽样 方法 有 哪些 ? 

17. 有 数据 值 2000,3000,4000,6000,10000。 对 这 些 数据 进行 规范 化 。 

(1) $ min 一 0,max 一 1, 进行 最 小 -最 大 规范 化 。 

(2) 进行 z 分 数 规范 化 。 
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18. R 语言 有 哪些 功能 ? 
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数据 可 视 化 


当 我 们 准备 好 数据 ,知道 了 数据 由 什么 类 型 的 属性 或 字段 组 成 以 后 ,就 可 以 通过 相应 
的 数据 预 处 理 技 术 填 补 数据 集中 的 缺失 值 , 光 滑 噪声 ,识别 离 群 点 ,由 基本 的 统计 描述 方 
法 获得 关于 数据 集 属性 值 的 中 心 趋势 和 离散 趋势 。 但 是 ,是 否 可 以 用 相关 的 方法 对 整理 
好 的 数据 集 进行 可 视 化 的 观察 ,直观 地 了 解数 据 看 上 去 如 何 ? 值 如 何 分 布 ? 离 群 点 分 布 
的 大 概 位 置 ? 数据 对 象 之 间 大 致 的 相似 性 如 何 ? 借助 于 数据 可 视 化 技术 不 仅 可 以 图 形 化 
的 方式 观察 数据 ,更 有 助 于 识别 隐藏 在 杂乱 数据 集中 的 关系 、 趋 势 和 偏差 。 不 同 的 应 用 场 
景 和 数据 类 型 使 用 不 同 的 可 视 化 方法 。 例 如 ,简单 的 表格 类 型 数据 可 以 使 用 柱状 图 和 折 
线 图 等 ,而 复杂 的 层级 结构 数据 可 以 使 用 树 图 等 可 视 化 方法 。 
章 从 可 视 化 技术 的 应 用 及 划分 开始 (3. 1 节 ) ,在 本 章 的 其 余部 分 ,将 学 习 到 最 常用 
的 高 维 数据 的 可 视 化 方法 (3. 2 节 ) 和 网 络 数据 的 可 视 化 方法 (3. 3 节 ) ,最 后 通过 两 个 竞赛 
案例 对 可 视 化 技术 的 实际 应 用 做 详细 介绍 (3.4 节 )。 


3.1 可 视 化 简介 


数据 可 视 化 是 一 门 古老 的 学 科 。 早 在 公元 2 世纪 ,人 们 就 开始 用 行 和 列 来 管理 数据 。 
到 中 世纪 时 期 ,人 们 已 开始 使 用 包含 等 值 线 的 地 磁 图 .表示 海上 主要 风向 的 天 象 图 等 。 在 
20 世纪 , 随 着 计算 技术 和 显示 技术 的 发 展 ,数据 可 视 化 技术 更 是 得 到 了 飞速 发 展 。 近 十 
多 年 来 , 随 着 大 数据 技术 的 发 展 , 现 有 可 视 化 技术 已 难以 应 对 海量 、 高 维 、 多 源 和 动态 数据 
可 视 化 的 挑战 ,数据 可 视 化 技术 随 之 迎 来 了 新 的 发 展 机 遇 。 

数据 可 视 化 是 被 许多 学 科 和 领域 专家 所 使 用 的 视觉 传递 现代 技术 , 它 包 含 了 数据 
可 视 表达 的 创造 性 和 研究 性 两 个 层面 。 数据 可 视 化 将 数据 所 包含 的 信息 的 综合 体 , 包 
含 属性 和 变量 ,抽象 化 为 一 些 图 表 形式 。 数 据 可 视 化 的 主要 目的 是 借助 统计 图 、 散 点 
图 和 其 他 图 的 形式 准确 、 清 晰 有 效 地 传达 数据 中 所 包含 的 信息 。 有 效 的 可 视 化 更 能 
进一步 帮助 用 户 分 析 数 据 , 推 论 事件 ,寻找 规律 。 它 使 得 复杂 数据 更 容易 被 用 户 所 理 
解 和 使 用 。 

数据 可 视 化 处 理 的 对 象 是 数据 ,根据 处 理 对 象 的 不 同 , 数 据 可 视 化 可 分 为 科学 可 视 化 
和 信息 可 视 化 两 个 分 支 。 又 由 于 数据 可 视 化 具有 分 析 推 理 等 数据 分 析 的 功能 , 且 数 据 分 
析 对 理解 数据 和 使 用 数据 具有 非常 重要 的 作用 ,将 可 视 化 与 数据 分 析 相 结合 ,又 形成 了 一 
个 新 的 数据 可 视 化 方向 , 即 可 视 分 析 。 
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科学 可 视 化 是 一 个 跨 学 科 的 科学 分 支 , 也 是 可 视 化 领域 发 展 最 早 和 最 成 熟 的 一 个 
学 科 。 科 学 可 视 化 主要 关注 三 维 空间 数据 的 可 视 化 ,强调 线 、 面 \ 体 等 几何 ,拓扑 结构 
的 真实 表达 ,其 主要 应 用 领域 是 自然 科学 ,如 物理 、 化 学 、 医 学 、 流 体力 学 、 生 物 学 、 气 象 
学 等 学 科 。 根 据 数 据 的 不 同类 别 , 科 学 可 视 化 可 分 为 标量 场 可 视 化 、 矢 量 场 可 视 化 和 
张 量 场 可 视 化 。 

信息 可 视 化 是 以 增强 人 的 认 知 能 力 为 目的 的 抽象 数据 和 非 结 构 化 数据 可 视 表 达 研 
究 。 与 科学 可 视 化 相 比 , 信 息 可 视 化 主要 关注 抽象 数据 ,不 仅 包括 数值 数据 ,也 包括 非 数 
值 数 据 , 如 文本 、 图 像 、 层 次 结构 等 。 统 计 信 息 可 视 化 起 源 于 统计 图 形 学 ,与 信息 图 形 学 、 
视觉 设计 等 现代 技术 相关 。 信 息 可 视 化 的 研究 融合 了 多 个 学 科 , 如 计算 机 科学 、 计 算 机 图 
形 学 、 人 机 交互 .可 视 设计 心理 学 ,商业 方法 等 。 在 本 章 , 主 要 关注 与 大 数据 关系 最 密切 
的 信息 可 视 化 内 容 。 

可 视 分 析 是 一 门 辅 以 交互 可 视界 面 进行 分 析 推 理 的 科学 ,主要 通过 耦合 人 的 分 析 能 
力 与 机 器 的 计算 能 力 智能 地 解决 由 于 数据 量 、 问 题 的 复杂 性 等 带 来 的 棘手 难题 ,可 视 交 互 
界面 则 是 耦合 人 与 机 器 的 介质 。 可 视 分 析 融 合 了 数据 表达 与 分 析 . 人 机 交互 和 可 视 化 等 
技术 ,已 经 并 仍 在 推动 分 析 决 策 .技术 转移 等 技术 的 发 展 。 

数据 可 视 化 是 艺术 也 是 科学 。 作 为 一 门 科学 ,可视化 应 该 真实 反映 数据 所 包含 的 信 
息 ; 作 为 一 门 艺术 ,可 视 化 应 该 具有 艺术 美感 。 为 了 实现 可 视 化 在 科学 与 艺术 间 的 平衡 ， 
可 视 化 需要 达到 真 、 善 . 美 三 种 境界 ， 

真 , 即 真实 性 , 指 可 视 化 结果 应 正确 反映 数据 的 本 质 。 

善 , 即 易 感知 , 指 可 视 化 结果 应 有 利于 公众 认 知 数据 背后 所 蕴含 的 现象 和 规律 。 

美 , 即 艺术 性 , 指 可 视 化 结果 的 形式 和 内 容 应 和 谐 统 一 。 

在 对 数据 进行 可 视 化 之 前 首先 要 了 解数 据 类 型 ,不 同 的 数据 类 型 都 有 对 应 的 可 视 化 
方法 。 在 3.2 节 中 介绍 针对 高 维 数据 的 可 视 化 方法 ,在 3.3 节 中 介绍 针对 网 络 数据 的 可 
视 化 方法 。 
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在 本 节 中 主要 介绍 高 维 数据 可 视 化 的 处 理 分 析 过 程 。 在 对 高 维 数据 可 视 化 时 ,如 果 
维度 过 高 则 需要 对 数据 进行 降 维 处 理 ,在 3. 2. 1 中 介绍 几 种 常见 的 降 维 处 理 方法 ,在 
3.2.2 节 中 介绍 几 种 常用 的 高 维 数据 可 视 化 方法 。 

无 论 是 在 日 常生 活 中 还 是 在 科学 研究 中 .高 维 数据 处 处 可 见 。 例 如 ,一 件 简单 的 商品 
就 包含 了 型 号 ,厂家 价格 ,性 能 、 售 后 服务 等 多 种 属性 ;再 如 ,在 癌症 研究 中 ,为 了 找到 与 
致癌 相关 的 基因 ,需要 综合 分 析 不 同 病 人 的 成 百 上 千 个 基因 表达 ;对 大 气 、 海 洋 、 宇 宙 等 复 
杂 物 理 现象 的 计算 模拟 ,也 要 考虑 到 诸如 温度 、 压 强 等 多 个 维度 因素 。 人 们 一 般 很 难 直 观 
快速 地 理解 三 维 以 上 的 数据 ,而 将 数据 转化 为 可 视 的 形式 ,就 可 以 帮助 人 们 理解 和 分 析 高 
维 空间 中 的 数据 特性 。 高 维 数据 可 视 化 技术 旨 在 用 图 形 表现 高 维度 的 数据 ,并 辅 以 交互 
手段 ,帮助 人 们 分 析 和 理解 高 维 数据 。 

高 维 数 据 可 视 化 主要 分 为 降 维 方法 和 非 降 维 方法 。 降 维 方法 指 将 高 维 数据 投影 到 低 


维 空间 ,尽量 保留 高 维 空间 中 原 有 的 特性 和 聚 类 关系 。 常 见 的 降 维 方法 有 主 成 分 分 析 
(Principle Component Analysis. PCA)、 多 维 尺 度 分 析 (Mnulti-Dimensional Scaling. 
MDS) 、 自 组 织 图 (Self-Organization Map,SOM) 等 。 这 些 方法 通过 数学 方法 将 高 维 数据 
降 维 ,进而 在 低 维 屏幕 空间 中 显示 。 通 常 , 数 据 在 高 维 空间 中 的 距离 越 近 , 在 投影 图 中 两 
点 的 距离 也 越 近 。 高 维 投影 图 可 以 很 好 地 展示 高 维 数据 间 的 相似 度 以 及 聚 类 情况 等 ,但 
并 不 能 表示 数据 在 每 个 维度 上 的 信息 ,也 不 能 表现 维度 间 的 关系 。 高 维 投影 图 损失 了 数 
据 在 原始 维度 上 的 细节 信息 ,但 直观 地 提供 了 数据 之 间 宏 观 的 结构 。 

图 3-1 中 包括 了 大 多 数 流 形 学 习 方 法 ,不 过 这 里 面 没 有 t-SNE, 相 比 于 其 他 算法 ,t- 
SNE 算是 比较 新 的 一 种 方法 ,也 是 效果 比较 好 的 一 种 方法 。 
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3.2.1 降 维 方法 
1. PCA 


主 成 分 分 析 (PCA) 是 一 种 较为 普遍 的 线性 降 维 方法 , 它 的 目标 是 通过 某 种 线性 投影 
将 高 维 的 数据 映射 到 低 维 的 空间 中 表示 ,并 期 望 在 所 投影 的 维度 上 数据 的 方差 最 大 ,以 此 
使 用 较 少 的 数据 维度 ,同时 保留 较 多 的 原 数 据点 的 特性 。 

PCA 的 原理 就 是 将 原来 的 样本 数据 投影 到 一 个 新 的 空间 中 ,相当 于 和 矩阵 分 析 中 将 一 
组 矩阵 映射 到 另外 的 坐标 系 下 。 通 过 一 个 转换 坐标 ,也 可 以 理解 成 把 一 组 坐标 转换 到 另 
外 一 组 坐标 系 下 ,但 是 在 新 的 坐标 系 下 ,表示 原来 的 样本 不 需要 那么 多 的 变量 ,只 需要 原 
来 样本 的 最 大 的 一 个 线性 无 关 组 的 特征 值 对 应 的 空间 的 坐标 即 可 。 通 俗 地 理解 ,就 是 如 
果 把 所 有 的 点 都 映射 到 一 起 ,那么 几乎 所 有 的 信息 (如 点 和 点 之 间 的 距离 关系 ) 都 丢失 了 ， 
而 如 果 能 使 映射 后 方差 尽 可 能 地 大 ,那么 数据 点 则 会 分 散 开 来 ,以 此 来 保留 更 多 的 信息 。 
可 以 证 明 ,PCA 是 丢失 原始 数据 信息 最 少 的 一 种 线性 降 维 方式 (实际 上 就 是 最 接近 原始 
数据 ,但 是 PCA 并 不 试图 去 探索 数据 内 在 结构 ) 。 

设 ” 维 向 量 w 为 目标 子 空间 的 一 个 坐标 轴 方向 ( 称 为 映射 向 量 ) 最 大 化 数据 映射 后 
的 方差 ,有 
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1 x Wes! Net 
max 一 2 (wT (x; — ¥)) 


其 中 ,m 是 数据 实例 的 个 数 , x; 是 数据 实例 i 的 向 量 表达 ,x 是 所 有 数据 实例 的 平均 向 量 。 
定义 W 为 包含 所 有 映射 向 量 为 列 向 量 的 矩阵 ,经 过 线性 代数 变换 ,可 以 得 到 如 下 优化 目 
标 函 数 : 
min tr(WTAW), s.t. W'W = I 
其 中 ,tr 表示 矩阵 的 迹 ,4 是 数据 协 方差 矩阵 : 
A 一 二 上 i QE) Ge, — x)T 

容易 得 到 最 优 的 W 是 由 数据 协 方差 矩阵 前 &A 个 最 大 的 特征 值 对 应 的 特征 向 量 作 为 
列 向 量 构成 的 。 这 些 特 征 向 量 形成 一 组 正 交 基 并 且 最 好 地 保留 了 数据 中 的 信息 。 

PCA 追求 的 是 在 降 维 之 后 能 够 最 大 化 保持 数据 的 内 在 信息 ,并 通过 衡量 在 投影 方向 
上 的 数据 方差 的 大 小 来 衡量 该 方向 的 重要 性 。 但 
是 这 样 投影 以 后 对 数据 的 区 分 作用 并 不 大 ,反而 
可 能 使 得 数据 点 揉 杂 在 一 起 无 法 区 分 。 这 也 是 
PCA 存在 的 最 大 一 个 问题 ,这 导致 使 用 PCA 在 很 
多 情况 下 的 分 类 效果 并 不 好 。 如 图 3-2 所 示 , 若 使 
用 PCA 将 数据 点 投影 至 一 维 空间 上 时 ,PCA 会 选 
择 2 轴 (%2), 这 使 得 原本 很 容易 区 分 的 两 篮 点 被 
揉 杂 在 一 起 变 得 无 法 区 分 ;而 这 时 若 选择 1 轴 
($1) 将 会 得 到 很 好 的 区 分 结果 。 

比如 ,原来 的 样本 的 维 数 是 30X1 000 000 ,就 
是 说 有 30 个 样本 ,每 个 样本 有 1 000 000 个 特征 








Na 
号 





图 3-2 PCA 分 析 图 


进行 降 维 。 在 降 维 的 时 候 会 计算 一 个 原来 样本 和 矩阵 的 协 方差 矩阵 ,这 里 就 是 1 000 000 X 
1 000 000 ,当然 ,这 个 矩阵 太 大 了 ,计算 的 时 候 会 用 其 他 的 方式 进行 处 理 ,这 里 只 是 讲解 
基本 的 原理 。 然 后 通过 这 个 1 000 000X1 000 000 的 协 方差 矩阵 计算 它 的 特征 值 和 特征 
向 量 , 最 后 获得 具有 最 大 特征 值 的 特征 向 量 构成 转换 矩阵 。 例 如 前 29 个 特征 值 已 经 能 
够 占 到 所 有 特征 值 的 99% 以 上 .那么 只 需要 提取 前 29 个 特征 值 对 应 的 特征 向 量 即 可 。 
这 样 就 构成 了 一 个 1 000 000 X29 的 转换 矩阵 ,然后 用 原来 的 样本 乘 以 这 个 转换 矩阵 ,就 
可 以 得 到 原来 的 样本 数据 在 新 的 特征 空间 的 对 应 的 坐标 ,将 样本 的 维 数 降 为 30X29 ,这 
样 原来 的 训练 样本 中 每 个 样本 的 特征 值 的 个 数 就 降 到 了 29 个 。 

一 般 来 说 ,PCA 降 维 后 的 每 个 样本 的 特征 的 维 数 不 会 超过 训练 样本 的 个 数 ,因为 超 
出 的 特征 是 没有 意义 的 。 虽 然 目前 比较 火 的 图 像 .视频 文字 等 多 媒体 数据 大 多 是 在 一 个 
非 线性 的 流 形 上 或 者 附近 ,PCA 作为 一 种 线性 的 降 维 方法 可 能 很 少 使 用 了 ,但 是 PCA 依 
然 是 不 可 替代 的 ,比如 2015 年 IEEE VIS 年 会 中 的 可 视 分析 (VAST2015) 最 佳 论 文 就 颁 
给 了 一 个 使 用 PCA 来 做 动态 网 络 分 析 的 工作 。 


2. MDS 


多 维 尺度 分 析 (MDS) 是 分 析 研 究 对 象 的 相似 性 或 差异 性 的 一 种 多 元 统计 分 析 方法 。 
MDS 主要 考虑 的 是 成 对 样本 间 的 相似 性 ,主要 思想 是 用 成 对 样本 的 相似 性 来 构建 合适 的 
低 维 空间 ,使 得 样本 在 低 维 空间 的 距离 和 高 位 空间 中 的 距离 尽 可 能 保持 一 致 。 根 据 样本 
是 否 可 计量 ,可 分 为 Metric MDS 和 Nonmetric MDS。 目 标 函 数 是 每 对 低 维 空间 中 的 欧 
氏 距 离 与 高 维 空间 中 相似 度 差 的 平方 和 ,最 小 化 目标 函数 ,用 一 些 数 值 优 化 方法 来 得 到 最 
优 解 。 


3.2.2 非 降 维 方法 


非 降 维 方法 保留 了 高 维 数据 在 每 个 维度 上 的 信息 ,可 以 展示 数据 的 所 有 维度 。 各 种 
非 降 维 方法 的 主要 区 别 在 于 如 何 对 不 同 的 维度 进行 数据 到 图 像 属 性 的 映射 。 当 维度 数量 
较 少 时 ,可 以 直接 通过 与 位 置 .颜色 ,形状 等 多 种 视觉 属性 相 结合 的 方式 对 高 维 数据 进行 
编码 ,例如 ,在 形状 .大 小 .颜色 上 映射 数据 维度 的 小 图 标 方法 ,或 用 不 同 角度 映射 数据 维 
度 呈 放射 形状 的 星 形 图 (star plot)。 但 当 维度 数量 增多 ,数据 量变 大 ,或 对 数据 呈现 精度 
的 需求 提高 时 ,这 些 方法 往往 难以 满足 需要 。 在 处 理科 学 .社会 研究 和 应 用 中 的 复杂 高 维 
数据 时 , 需要 伸缩 性 (scalability) 更 强 的 高 维 数据 可 视 化 方法 ,包括 散 点 图 矩阵 
(scatterplot matrix) 和 平行 坐标 (parallel coordinates) 等 。 


1. 星 形 图 


星 形 图 ,又 称 为 雷达 图 (radar chart)。 星 形 图 可 以 看 成 平行 坐标 的 极 坐标 版 本 。 多 
元 数据 的 每 个 属性 由 一 个 坐标 轴 表 示 ,所 有 坐标 轴 链 接 到 共同 的 原点 (圆心 ) ,其 布局 沿 圆 
周 等 角度 分 布 ,每 个 坐标 轴 上 的 点 的 位 置 由 数据 对 象 的 值 与 该 属性 最 大 值 的 比例 决定 ,用 
折线 连接 所 有 坐标 轴 上 的 点 , 围 成 一 个 星 形 区 域 。 星 形 区 域 的 形状 和 大 小 反映 了 数据 对 
象 的 属性 。 

星 形 图 提供 了 一 种 比较 紧凑 的 数据 可 视 化 。 随 着 数据 维度 的 增加 ,可 视 化 所 占 的 圆 
形 区 域内 需要 显示 更 多 的 坐标 ,但 是 ,其 总 面积 并 不 变 。 由 于 人 类 视觉 识别 对 形状 和 大 小 
的 敏感 性 , 星 形 图 能 使 得 不 同 数 据 对 象 之 间 的 比较 更 加 容易 和 高 效 。 

图 3-3 左边 展现 了 汽车 数据 12 个 数字 变量 的 星 形 图 ;这 12 个 变量 按照 图 3-3 右边 的 
变量 赋值 键 所 示 进 行 排列 。 图 3-3 右边 的 为 星 形 图 的 变量 赋值 键 ;其 侧面 和 底部 的 变量 
与 大 小 相关 联 , 其 他 变量 与 价格 和 性 能 相关 联 。 图 3-3 中 每 颗 星 代表 一 种 汽车 模型 ; 星 中 
的 每 条 射线 长 度 与 各 个 变量 值 成 正比 。 对 于 汽车 数据 而 言 ,一 个 变量 有 较 大 的 值 ( 即 较 长 
的 射线 ) 则 可 能 意味 着 这 是 一 辆 好 车 ,例如 PRICE、TURN 和 GRATIO 等 变量 。 在 图 3-3 
中 最 显著 的 标示 就 是 : 在 顶部 的 星 形 图 中 顶部 的 价格 和 性 能 (price and performance) 变 
量 射线 较 长 ,并 且 底 部 的 尺寸 (size) 变 量 射线 较 短 ;但 反 过 来 这 样 理 解 也 是 对 的 : 最 重 的 
模型 在 星 形 图 的 底部 一 行 。 

图 3-4 展现 了 美国 50 个 州 以 及 首都 华盛顿 特区 的 犯罪 率 。 在 右 图 的 范例 中 ,可 以 看 
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图 3-3 汽车 数据 星 形 图 


图 片 来 源 : https; //andrewpwheeler. wordpress. com/2012/03/14/reference-lines-for-star-plots-aid-interpretation/ 


到 在 星 形 图 中 7 个 坐标 分 别 表示 7 种 类 型 的 犯罪 (车 辆 失窃 ,盗窃 .抢劫 .谋杀 和 强奸 等 ) 。 
范例 中 展示 的 乔治 亚 州 除了 强奸 发 生 率 低 之 外 ,其 余 各 种 犯罪 率 都 较 高 。 在 左 图 中 ,代表 
所 有 50 个 州 和 华盛顿 特区 的 星 形 图 按照 顺序 依次 排列 ,用 户 可 以 通过 比较 不 同 星 形 区 域 
的 大 小 和 形状 ,了 解 各 州 的 犯罪 情况 。 例 如 , 北 达科他 州 是 各 类 犯罪 最 少 的 州 ;而 南 达 科 
他 州 除 了 强奸 发 生 率 较 高 之 外 ,其 余 犯 罪 率 都 较 低 。 

Rankings of Crime Rates for 50 States (and D.C.) Star Plot 
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图 3-4 美国 50 个 州 以 及 首都 华盛顿 特区 的 犯罪 率 星 形 图 


图 片 来 源 : https: //andrewpwheeler. wordpress. com/2012/03/14/reference-lines-for-star-plots-aid-interpretation/ 


2. 切 余 诺 夫 脸谱 图 


切 尔 诺 夫 脸谱 图 (Chernoff Faces) 是 由 美国 统计 学 家 切 尔 诺 夫 在 1976 年 率先 提出 
的 ,用 脸谱 来 分 析 多 维度 数据 ,即将 已 个 维度 的 数据 用 人 脸 部 位 的 形状 或 大 小 来 表示 。 
此 方法 和 星 形 图 类 似 , 也 采用 图 标 表 示 单 个 的 多 元 数据 对 象 , 不 同 的 是 , 切 尔 诺 夫 脸谱 图 
采用 模拟 人 脸 的 图 标 来 表示 数据 对 象 , 它 可 以 把 多 元 数据 用 二 维 的 人 脸 的 方式 整体 表现 
出 来 。 各 类 数据 变量 经 过 编码 后 ,转变 为 脸型 眉毛、 眼睛、 鼻子 . 嘴 、 下 巴 等 面部 特征 , 数 
据 整体 就 是 一 张 表 情 各 异 的 人 脸 。 例 如 ,图 3-5 展示 了 使 用 切 尔 诺 夫 脸谱 图 可 视 化 同样 
的 美国 各 州 犯罪 率 数据 的 例子 ,其 中 脸 的 长 度 表示 谋杀 案 的 发 生 率 , 脸 的 宽度 表示 强奸 案 
的 发 生 率 , 从 图 中 可 以 明显 地 观察 到 阿拉 斯 加 州 (Alaska) 的 强奸 案 发 生 率 较 高 ,哥伦比亚 
特区 (District of Columbia) 的 谋杀 案 发 生 率 较 高 。 

切 尔 诺 夫 脸谱 图 的 灵感 来 源 于 , 当 人 们 面 对 错综复杂 的 信息 时 ,人 脑 会 自动 过 滤 掉 无 
用 信息 ,保留 有 用 信息 。 人 脑 通常 可 以 察觉 到 一 些 非 常 细微 甚至 难于 测量 的 变化 ,然后 对 
其 做 出 反应 ,同时 ,人 脑 区 分 脸谱 时 ,这 种 优越 性 更 加 明显 ,因为 无 论 是 脸 的 胖 瘦 还 是 五 官 
的 大 小 和 位 置 ,都 极 易 给 人 留 下 深刻 的 印象 ,因而 易于 区 别 。 但 人 们 对 于 人 脸 上 各 个 部 分 
或 者 特征 的 感知 程度 不 同 ,所 以 需要 根据 数据 分 析 的 目的 和 属性 的 优先 级 别 来 选择 合适 
的 属性 与 某 个 人 脸 特征 之 间 形 成 映射 。 


3. 散 点 图 


散 点 图 (scatterplot) 的 本 质 是 将 抽象 的 数据 对 象 映射 到 二 维 的 直角 坐标 系 表示 的 
空间 。 数 据 对 象 在 坐标 系 的 位 置 反 映 了 其 分 布 特征 , 直观、 有 效 地 揭示 两 个 属性 之 间 
的 关系 。 面 向 多 元 数据 . 散 点 图 的 思想 可 泛 化 为 : 采用 不 同 的 空间 映射 方法 将 多 元 数 
据 对 象 布局 在 二 维 平面 空间 中 ,数据 对 象 在 空间 中 的 位 置 反 映 了 其 属性 及 相互 之 间 的 
关联 ,而 整个 数据 集 在 空间 中 的 分 布 则 反映 了 各 个 维度 之 间 的 关系 及 数据 集 的 整体 特 
性 。 图 3-6 表达 的 是 2013 年 世界 各 国 预期 寿命 与 人 均 国 内 生产 总 值 的 散 点 图 可 视 化 。 
每 个 数据 对 象 ( 圆 点 ) 代 表 一 个 国家 , 圆 点 的 大 小 表示 国家 人 口 , 圆 点 的 颜色 表示 国家 
所 在 的 洲 。 

散 点 图 矩阵 是 散 点 图 的 高 维 扩展 , 它 从 一 定 程度 上 克服 了 在 平面 上 展示 高 维 数据 的 
困难 ,在 展示 多 维 数 据 的 两 两 关系 时 有 着 不 可 蔡 代 的 作用 。 散 点 图 矩阵 是 由 所 有 两 两 维 
度 间 的 散 点 图 按 和 矩阵 形式 排列 而 成 的 ,每 个 散 点 图 都 表现 出 两 个 维度 间 的 关系 。 通 过 散 
点 图 矩阵 ,可 以 看 到 数据 在 任意 两 个 维度 间 的 相关 特性 以 及 聚 类 情况 。 它 的 缺点 是 不 能 
显示 各 个 数据 在 多 个 维度 上 的 协同 关系 ,同时 需要 很 大 的 显示 空间 ,需要 的 显示 空间 面积 
正比 于 维度 数目 的 平方 。 

图 3-7 是 以 音 尾 花 数据 为 例 , 利 用 及 语言 graphics 包 中 的 pairs() 函 数 绘 制 的 散 点 图 
矩阵。 图 中 不 同 颜色 分 别 代表 不 同 品种 的 营 尾 花 . 从 图 中 可 以 观察 到 各 类 昔 尾 花 的 花 准 、 
花 葛 长 宽 的 大 体 分 布 以 及 它们 两 两 之 间 的 关系 。 
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3-5 切 尔 诺 夫 脸谱 图 
图 片 来 源 : http: //flowingdata. com/2010/08/31/how-to-visualize-data-with-cartoonish-faces/ 
crime-chernoff-faces-by-state-edited-2/ 
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3-6 2013 年 世界 各 国 预期 寿命 与 人 均 国内 生产 总 值 的 散 点 图 可 视 化 
图 片 来 源 : http: //www. gapminder. org 
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图 片 来 源 : https: //github. com/d3/d3/wiki/Gallery 
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4. 平行 坐标 


平行 坐标 (parallel coordinates) 是 将 高 维 数据 的 各 个 变量 维度 用 一 系列 相互 平行 的 
坐标 轴 来 表示 ,变量 值 对 应 轴 上 的 位 置 。 将 描述 不 同 变量 维度 的 同一 数据 对 应 各 点 连接 
成 折线 ,代表 一 个 数据 的 一 条 折线 在 平行 的 坐标 轴 上 的 投影 就 反映 了 变化 趋势 和 各 个 变 
量 维度 间 的 相互 关系 。 平 行 坐标 能 够 帮助 分 析 数 据 在 多 个 维度 上 的 分 布 和 多 个 维度 之 间 
的 关系 , 且 平 行 坐标 需要 的 显示 面积 仅 正比 于 维度 的 数目 。 由 于 每 个 数据 点 都 表现 为 一 
条 折线 ,所 以 平行 坐标 在 两 个 维度 之 间 关 系 的 表现 上 不 如 散 点 图 清楚 ,并 且 当 数据 量 增 大 
时 更 容易 受到 图 元 堆 生 的 影响 。 

图 3-7 中 的 例子 使 用 的 葛 尾 花 数据 也 可 以 用 平行 坐标 系 表示 ,如 图 3-8 所 示 。 从 
图 3-8 "PAY LAB, BFE AEN Iris setosa 类 花 昔 长度 主要 分 布 于 4.3~5. 8cm 之 间 , 花 昔 
宽度 主要 分 布 于 2.9 一 4.4cm 之 间 , 但 也 有 一 个 例外 ,其 花 划 宽度 为 2. 3, 这 种 情况 可 以 猜 
测 到 是 植物 中 的 突变 或 者 异常 ;花瓣 长 度 主要 分 布 于 1.0 一 1. 9cm 之 间 , 花 六 宽度 主要 分 
布 于 0.1 一 0. 6cm 之 间 ; 其 他 两 种 高 尾 花 的 情况 也 可 以 从 图 中 观察 到 。 除 此 之 外 ,还 可 以 
从 图 中 观察 出 它们 两 两 之 间 更 多 的 联系 。 
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图 片 来 源 : https: //github. com/d3/d3/wiki/Gallery 


图 3-9 为 在 平行 坐标 中 结合 散 点 图 。 图 中 的 两 个 属性 Horsepower 和 Displacement 
的 关系 在 两 个 轴 之 间 用 散 点 图 表示 。 








100 200 300 400 


图 3-9 平行 坐标 结合 散 点 图 
图 片 来 源 : http: //vis. pku. edu. cn/mddv/val/gallery 


33 网 络 数据 可 视 化 


网 络 可 视 化 充分 利用 视觉 感知 系统 ,将 网 络 数据 以 图 形 化 的 形式 展现 出 来 ,快速 直观 
地 解释 及 概览 网 络 结构 数据 ,一 方面 辅助 用 户 认 识 网 络 的 内 部 结构 , 另 一 方面 有 助 于 挖掘 
隐藏 在 网 络 内 部 的 有 价值 信息 。 本 节 针 对 网 络 拓扑 类 型 数据 介绍 几 种 对 应 的 可 视 化 方 
法 ,在 3.3.1 节 中 介绍 常见 的 节点 -链接 方法 ,在 3. 3. 2 节 中 介绍 相 邻 矩阵 布局 ,在 3. 3. 3 
节 中 介绍 多 种 布局 的 混合 应 用 。 

互联 网 已 经 成 为 信息 的 主要 载体 之 一 ,基于 网 络 的 研究 在 数据 获取 方面 越 来 越 容易 ， 
网 络 数据 分 析 是 伴随 着 现代 网 络 技术 的 应 用 出 现 的 一 个 较 新 的 研究 领域 , 它 具 有 复杂 性 、 
多 维度 和 时 变性 等 特点 。 人 们 已 经 习惯 在 网 络 上 分 享 信息 ,结识 新 的 朋友 等 ;基于 微 信 、 
微 博 等 社交 App, 可 以 迅速 发 布 身 边 正在 发 生 的 事情 ,因此 社交 媒体 相对 传统 媒体 (如 报 
纸 、 电 视 新 闻 等 ) 具 有 很 好 的 竞争 力 。 企 业 可 以 对 巨大 的 网 络 数据 进行 挖掘 分 析 并 发 现 潜 
在 的 商业 价值 ,甚至 能 通过 基于 网 络 的 各 种 平台 直接 影响 客户 ;客户 同样 可 以 从 网 络 数 据 
中 获取 信息 来 了 解 公司 的 方方面面 :以 达到 指导 和 决定 投资 的 目的 。 

相 较 于 树 形 数据 中 明显 的 层次 结构 ,网 络 数据 并 不 具有 自 底 向 上 或 自 顶 向 下 的 层次 
结构 ,表达 的 关系 更 加 复杂 和 自由 。 图 的 绘制 包括 3 个 方面 : 网 络 布局 、 网 络 属性 可 视 化 
和 用 户 交互 ,其 中 最 核心 的 要 素 是 网 络 布局 决定 图 的 结构 关系 。 最 常用 的 网 络 布局 方法 
有 节点 -链接 法 和 相 邻 矩阵 两 类 。 


3.3.1 节点 一 链接 法 


在 可 视 化 布局 中 最 自然 的 表达 就 是 用 节点 表示 对 象 ,用 线 或 者 边 表示 关系 的 节点 一 
链接 布局 (noderlink)。 它 容易 被 用 户 理解 .接受 ,帮助 人 们 快速 建立 事物 与 事物 之 间 的 联 
系 , 显 式 地 表达 事物 之 间 的 关系 ,例如 关系 型 数据 库 的 模式 表达 、 地 铁 线 路 图 的 表达 ,因而 
是 网 络 数据 可 视 化 的 首要 选择 。 图 3-10 就 是 节点 一 链接 法 的 一 个 例子 。 
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节点 一 链接 法 的 优点 是 : ABE TL WO J BD RK R fE AS Ze E AR BH 
径 ;灵活 ,有 许多 的 变种 。 节 点 一 链接 法 的 局 限 性 有 : 几乎 所 有 直观 算法 的 复杂 度 均 大 于 
O(N?*); 对 于 密集 (尤其 是 关系 密集 ) 的 图 不 是 很 适用 。 


1. 力 引导 布局 


力 引导 布局 最 早 由 Peter Eades 在 1984 年 的 (启发 式 画 图 算法 ) 一 文中 提出 ,目的 是 
减少 布局 中 边 的 交叉 ,尽量 保持 边 的 长 度 一 致 。 此 方法 借用 弹簧 模型 模拟 布局 过 程 : 用 
弹簧 模拟 两 个 点 之 间 的 关系 ,受到 弹力 的 作用 后 ,过 近 的 点 会 被 弹 开 , 而 过 远 的 点 被 拉 近 ; 
通过 不 断 的 迭代 ,使 整个 布局 达到 动态 平衡 , 趋 于 稳定 。 其 后 ， 力 引导 ”的 概念 被 提出 , 演 
化 成 力 引 导 布 局 算法 (Fruchterman-Reingold 算法 ,简称 FR 算法 ), 即 一 种 用 于 丰富 两 点 
之 间 关 系 的 物理 模型 ,加 入 点 之 间 的 静电 力 , 通 过 计算 系统 的 总 能 量 并 使 得 能 量 最 小 化 ， 
从 而 达到 布局 的 目的 。 这 种 改进 的 能 量 模型 可 看 成 弹簧 模型 的 一 般 化 。 

无 论 是 弹簧 模型 还 是 能 量 模型 ,其 算法 的 本 质 是 要 解决 能 量 优化 问题 ,区 别 在 于 优化 
函数 的 组 成 不 同 。 优 化 对 象 包括 引力 和 斥 力 部 分 ,不 同 算法 对 引力 和 斥 力 的 表达 方式 不 
同 。 对 于 平面 上 的 两 个 节点 i 和 j, 用 d(i, 站 表示 两 个 点 的 欧 氏 距离 ,s(i,j) 表 示 弹 得 的 
自然 长 度 ,k 是 弹力 系数 ,r 表示 两 个 点 之 间 的 静电 力 常数 ,tw 是 两 个 点 之 间 的 权重 。 

弹簧 模型 为 





E=>>> DACA — sj)" 


i=l j=1 


能 量 模型 为 





E=E,+ $ > want 
力 引导 布局 易于 理解 和 实现 ,可 以 用 于 大 多 数 网 络 数据 集 ,而 且 实 现 的 效果 具有 较 好 
的 对 称 性 和 局 部 聚合 性 ,因此 比较 美观 。 然 而 , 力 引导 布局 只 能 达到 局 部 优化 ,而 不 能 达 


到 全 局 优化 ,并 且 初 始 位 置 对 最 后 优化 结果 的 影响 较 大 。 


算法 3-1 力 引导 布局 的 伪 代 码 

设置 节点 的 初始 速度 为 (0,0) ;设置 节点 的 初始 位 置 为 任意 但 不 重合 的 位 置 。 

开始 循环 

总 动能 : =0  ”// 所 有 粒子 的 总 动能 为 0 

对 于 每 个 节点 i, 净 力 f: =(0,0) 

对 于 除 该 节点 外 的 每 个 节点 j, 净 力 f: == 净 力 {十 j 节点 对 应 i 节点 的 库仑 斥 力 
下 一 个 节点 十 1 
对 于 该 节点 上 的 每 个 弹簧 s, 净 力 f: =H {十 弹簧 对 该 节点 的 胡 克 弹力 
下 一 个 弹簧 s 十 1 

8:，// 如 果 没 有 阻尼 衰减 ,整个 系统 将 一 直 运动 下 去 

该 节点 速度 : 一 ( 该 节点 速度 十 步 长 x 净 力 ) * 阻尼 

该 节点 位 置 : 一 该 节点 位 置 十 步 长 * 该 节点 速度 

总 动能 : 一 总 动能 十 该 节点 质量 * (该 节点 速度 )“2 

9: 下 一 个 节点 i 计 1 


oa ho no 一 
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HE IZ BL HTH ,也 可 以 在 迭代 后 期 将 步 长 调 到 一 个 比较 小 的 值 。 

例如 ,图 3-11 展示 了 一 个 小 型 的 社交 网 络 。 社 交 网 络 是 一 个 由 个 人 或 社区 组 成 的 点 
状 网 络 拓扑 结构 。 其 中 每 个 点 (node) 代 表 一 个 个 体 ,可 以 是 个 人 ,也 可 以 是 一 个 团队 或 是 
一 个 社区 ,个 体 与 个 体 之 间 可 能 存在 各 种 相互 依赖 的 社会 关系 ,在 拓扑 网 络 中 以 点 与 点 之 
间 的 边 (tie) 表 示 。 而 社交 网 络 分 析 关 心 的 正 是 点 与 边 之 间 依 存 的 社会 关系 。 随 着 个 体 
数量 的 增加 以 及 个 体 间 社会 关系 的 复杂 化 ,最 后 形成 的 整个 社交 网 络 结构 可 能 会 非常 复 
杂 。 图 3-12 为 法 国 作家 维 多 克 。 雨 果 的 小 说 (悲惨 世界 ) 的 人 物 谱 图 。 节 点 用 颜色 对 通 
过 子 群 划分 算法 计算 的 人 物 分 类 类 别 进行 编码 , 边 的 粗细 表示 两 个 节点 代表 的 人 物 之 间 
共同 出 现 的 频率 。 
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图 3-11 力 引导 布局 -小 型 社交 网 络 
图 片 来 源 : http: //bl. ocks. org/mbostock/950642 
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3-12 法国 作家 维 多 克 … 雨 果 的 小 说 (悲惨 世界 ) 的 人 物 谱 图 ( 力 引导 布局 ) 
图 片 来 源 : http: //homes. cs. washington. edu/~jheer///files/z00/ 


2. 多 维 尺度 分 析 布 局 


多 维 尺度 分 析 (MDS) 是 一 种 探索 性 数据 分 析 技 术 , 主 要 是 用 适当 的 降 维 方法 将 多 个 变 
量 通 过 坐标 定位 在 低 维 空间 (二 维 或 三 维 ) 中 ,变量 之 间 的 欧 氏 距离 就 可 以 反映 它们 之 间 的 
差异 性 和 相似 性 。MDS 布局 的 出 现 是 为 了 弥补 引导 布局 的 局 限 性 。 它 针对 高 维 数据 ,用 降 
维 方 法 将 数据 从 高 维 空间 降 到 低 维 空间 ,力求 保持 数据 之 间 的 相对 位 置 不 变 , 同 时 也 保持 布 
局 效果 的 美观 性 。 力 引导 布局 方法 的 局 部 优化 使 得 在 局 部 点 与 点 之 间 的 距离 能 够 比较 忠实 
地 表达 内 部 关系 ,但 却 难以 保持 局 部 与 局 部 之 间 的 关系 。 相 对 地 ,MDS 是 一 种 全 局 控制 , 目 
标 是 要 保持 整体 的 偏离 最 小 ,这 使 得 MDS 的 输出 结果 更 加 符合 原始 数据 的 特性 。 

MDS 根据 数据 集 特征 分 为 不 考虑 个 体 差异 MDS 模型 和 考虑 个 体 差异 MDS 模型 。 
MDS 模型 允许 多 种 类 型 的 数据 输入 ,并 且 在 实际 应 用 中 ,也 有 多 种 测量 相似 性 或 差异 性 
的 方法 ,根据 分 析 数 据 的 类 型 分 为 以 下 两 种 : 

A) 度量 化 MDS 模型 。 也 称 为 古典 MDS 模型 ,所 输入 的 数据 是 直接 反映 变量 间 差 
异 或 相似 的 距离 或 比率 ,例如 城市 间 的 距离 就 是 现成 的 反映 差异 的 数据 。 

(2) 非 度量 化 MDS 模型 。 输 入 的 数据 不 直接 反映 变量 间 的 差异 ,而 是 通过 对 其 属性 
的 评分 ,间接 地 反映 变量 间 的 差异 或 相似 性 。 

多 维 尺度 分 析 的 步骤 如 下 : 

(1) 界定 问题 。 明 确 研究 的 问题 和 范畴 ,确定 相关 的 变量 种 类 和 数量 。 

(2) 获取 数据 。 根 据 实际 情况 获取 分 析 数 据 。 

(3) 选择 MDS 模型 。 根 据 获得 的 数据 类 型 ,选择 相应 的 MDS 模型 。 

(4) 确定 维度 。MDS 模型 是 为 了 生成 一 个 用 尽 可 能 小 的 维度 对 数据 进行 最 佳 拟 合 
的 空间 感知 图 ,因此 要 确定 一 个 合适 的 维度 ,维度 太 高 不 易于 解读 ,维度 太 低 会 影响 拟 合 
度 , 通 常 采用 二 维 或 三 维 。 

(5) 模型 评价 。 考 察 应 力 系 数 Stress 和 拟 合 指数 RSQ, 应 力 系 数 越 小 越 好 , 拟 合 指 
数 越 大 越 好 。 

(6) 解读 图 表 。 多 维 尺度 分 析 最 重要 的 结果 是 感知 图 ,图 中 各 点 之 间 的 距离 直接 反 
映 了 各 变量 的 相似 或 差异 程度 ,除了 查看 差异 程度 之 外 ,如 果 要 对 图 表 进行 整体 的 分 析 解 
读 ,还 需要 对 每 个 维度 进行 解释 。 


3. 弧 长 链接 图 


弧 长 链接 图 (arc diagram) 是 节点 -链接 法 的 一 个 变种 。 它 将 节点 沿 某 个 线性 轴 或 环 
状 排列 , 圆 弧 表达 节点 之 间 的 链接 关系 。 例 如 ,图 3-13 是 法 国 作家 维 多 克 。 雨 果 的 小 说 
《悲惨 世界 》 的 人 物 谱 图 。 图 3-14 是 2011 年 年 末 欧 债 危机 时 BBC 新 闻 制 作 的 各 国之 间 
错综复杂 的 借贷 关系 的 可 视 化 。 各 个 国家 被 放置 在 圆 环 布局 上 ,曲线 的 箭头 表示 两 国之 
间 的 债务 关系 ,箭头 的 粗细 表示 债务 的 多 少 , 颜 色 表示 债务 危机 的 严重 程度 ,每 个 国家 外 
债 的 数额 决定 了 它们 在 圆 环 上 所 占 的 大 小 。 由 于 债务 关系 太 复杂 ,所 以 只 有 用 户 点 击 选 
中 的 国家 的 债务 关系 才 被 标注 出 来 。 欧 洲 最 严重 的 是 希腊 ,外 债 达到 了 国民 生产 总 值 的 
两 倍 。 美 国外 债 最 多 ,主要 的 债权 国 是 法 国 。 弧 长 链接 图 不 能 像 二 维 布局 那样 表达 图 的 
全 局 结构 ,但 在 节点 良好 排序 后 可 清晰 地 呈现 环 和 桥 的 结构 。 对 节点 的 排序 优化 问题 又 
称 为 序列 化 ,在 可 视 化 、 统 计 等 领域 有 广泛 的 应 用 。 
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Risk Status: I HIGH 


Greece is heavily indebted to eurozone countries and is 
one of three eurozone countries to have received a 
bail-out. Although the Greek economy is small and 
direct damage of it defaulting on its debts might be 
absorbed by the eurozone, the big fear is “contagion” - 
or that a Greek default could trigger a financial 
catastrophe for other, much bigger economies, such as 
Italy 


Back to introduction 


图 3-14 2011 年 年 末 欧 债 危机 时 BBC 新 闻 制 作 的 各 国之 间 错 综 复 杂 的 借贷 关系 的 可 视 化 
图 片 来 源 : http: //www. bbe. co. uk/news/business-15748696 


3.3.2 邻接 矩阵 布局 


邻接 矩阵 (adjacency matrix) 指 代表 N 个 节点 之 间 关 系 的 NXN 的 矩阵 ,矩阵 内 的 
位 置 (i,j) 表 达 了 第 i 个 节点 和 第 j 个 节点 之 间 的 关系 。 对 于 无 权重 的 关系 网 络 , 用 0-1 
HERE (binary matrix) 来 表达 两 个 节点 之 间 的 关系 是 否 存在 ;对 于 带 权重 的 关系 网 络 ,邻接 
矩阵 则 可 用 (7 位 置 上 的 值 代表 其 关系 紧密 程度 ;对 于 无 向 关系 网 络 , 邻 接 矩 阵 是 一 个 
对 角 线 对 称 和 矩阵 ;对 于 有 向 关系 网 络 ,邻接 矩阵 的 对 角 线 表达 节点 与 自己 的 关系 。 邻 接 矩 


阵 关 系 图 的 示例 如 图 3-15 所 示 。 


A 

B C 
A 

D E 
B 
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D 
E 























3-15 ”邻接 矩阵 关系 图 


邻接 矩阵 布局 能 够 完全 规避 边 的 交叉 ,所 以 非常 适用 于 密集 的 图 。 其 视觉 伸缩 性 强 ; 
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能 更 好 地 表达 两 两 关联 的 网 络 数据 。 但 同时 它 的 可 视 化 结果 比较 抽象 ,难以 呈现 网 络 的 
拓扑 结构 。 另 外 , 它 不 能 直观 地 表达 关系 传递 性 和 网 络 中 心性 ,难以 跟踪 出 路 径 。 

邻接 矩阵 的 表达 简单 易 用 ,可 以 用 数值 矩阵 ,也 可 以 将 数值 映射 到 色彩 空间 表达 。 
但 是 ,从 邻接 矩阵 中 挖掘 出 隐藏 的 信息 并 不 容易 ,需要 结合 人 机 交互 。 最 关键 的 两 种 
交互 是 排序 和 路 径 搜索 ,前 者 使 具有 相似 模式 的 节点 靠 得 更 近 , 而 后 者 则 用 于 探索 节 
点 之 间 的 传递 关系 。 图 3-16 为 邻接 矩阵 法 实例 ,是 城市 交易 邻接 矩阵 ,横向 和 纵向 分 
别 表示 收 货 和 发 货 的 关系 。 饱 和 度 越 低 , 颜 色 越 白 ,表示 交易 值 越 小 ;颜色 越 深 , 表 示 
交易 值 越 大 。 























图 3-16 城市 交易 邻接 矩阵 


邻接 矩阵 排序 的 意义 是 凸显 网 络 关系 中 存在 的 模式 。 类 似 于 弧 长 链接 图 ,这 个 问题 
也 称 为 序列 化 问题 。 一 个 NX N 的 邻接 矩阵 共有 ?1! 种 排序 方式 ,在 这 2! 种 组 合 中 找到 
使 代价 函数 最 小 的 排序 方式 称 为 最 小 化 线性 排列 ,是 一 个 N-P 难度 的 问题 。 在 实际 应 用 
中 ,通常 采用 启发 式 算法 ,不 求 达到 最 优 。 

常规 的 排序 方法 依据 网 络 数 据 的 某 一 数值 (矩阵 值 或 节点 的 度 ) 的 大 小 执行 。 选 择 不 
同 的 排序 项 产生 不 同 的 矩阵 排序 结果 。 图 3-17 为 法 国 作家 维 多 克 。 雨 果 的 小 说 (悲惨 世 
界 》 的 人 物 谱 图 ,图 中 采用 子 群 聚 类 算法 获得 的 人 物 分 类 结果 对 邻接 矩阵 的 行 和 列 进行 
排序 。 
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图 3-17 PRA AE H WR AY A BC AR AB HA) A A BHE PE 
图 片 来 源 : http: //homes. cs. washington. edu/~jheer///files/z00/ 


3.3.3 混合 布局 


节点 一 链接 布局 适用 于 节点 规模 大 但 边关 系 较为 简单 ,并 且 能 从 布局 中 看 出 图 的 拓 
扑 结构 的 网 络 数据 ;而 邻接 矩阵 恰恰 相反 ,适用 于 节点 规模 较 小 ,但 边关 系 复 杂 , 其 至 是 两 
两 节点 之 间 都 存在 关系 的 数据 。 这 两 种 数据 的 特点 是 用 户 选择 布局 的 首要 区 分 原则 。 对 
于 部 分 稀 下 ,部 分 稠密 的 数据 .单独 采用 任何 一 种 布局 都 不 能 良好 地 表达 数据 ,这 时 便 可 
以 混合 两 者 的 布局 来 设计 。 一 些 人 认为 不 同 的 布局 各 有 所 长 ,取长补短 的 混合 布局 永远 
是 优 于 单一 布局 的 选择 ,但 实际 上 顾此失彼 的 例子 常常 见 到 。 是 否 需 要 混合 布局 ,如 何 设 
计 混合 布局 必须 经 过 仔细 思考 。 
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是 否 一 种 布局 已 经 足以 表达 数据 的 模式 ? 无 须 为 了 混合 而 混合 ,尤其 不 应 为 了 花哨 
的 可 视 效果 而 混合 。 可 视 化 是 一 个 科学 严谨 的 过 程 , 如 果 增 加 布局 并 不 能 表达 重要 的 额 
外 信息 特征 ,或 者 另 一 种 布局 的 可 视 化 效果 重 倒 ,那么 混合 布局 不 是 一 种 好 的 选择 。 

多 种 布局 如 何 混合 成 一 种 布局 ? 简单 的 多 种 布局 罗列 称 为 仪表 盘 (dashboard) 或 多 
视图 模式 ,即将 不 同 的 布局 结果 放置 于 同一 个 页 面 , 在 视图 之 间 实 现 可 视 交 互 的 同步 。 根 
据 可 视 化 布局 组 合 研究 , 除 并 列 式 组 合 外 还 有 载 人 式 、 嵌 套 式 、. 主 从 式 、 结 合式 4 种 组 合 模 
式 , 对 可 视 化 布局 更 丰富 的 组 合 能 大 大 提高 可 视 化 结果 的 分 析 效率 。 


34 可 视 化 案例 分 析 


在 本 节 中 将 结合 两 个 实际 案例 来 介绍 可 视 分 析 的 实际 应 用 。 在 3.4. 1 节 中 介绍 在 完 
成 China VIS 2015 比赛 中 所 采用 的 一 些 可 视 化 方法 以 及 分 析 过 程 。 在 3. 4. 2 节 中 介绍 
在 完成 VAST Challenge 2016 比赛 中 所 采用 的 一 些 可 视 化 方法 以 及 分 析 过 程 。 


3.4.1 案例 一 : China VIS 2015 竞赛 题 


1. 简介 


本 题 关注 对 正常 网 络 流量 日 志 数 据 的 分 析 。TSZNet 公司 提供 了 一 周 的 tcpflow A 
志 数 据 , 希 望 参 赛 者 找到 公司 内 部 网 络 的 客户 端 和 服务 器 ,分 析 公 司 内 网 的 网 络 体 系 结 
构 , 总 结 公司 内 网 的 正常 网 络 通信 模式 有 哪些 。 


2. 数据 


一 周 的 tcpflow(TCP 协议 层 的 数据 传输 记录 ) 日 志 , 正 常 流量 。tcpflow 日 志 字段 包 
括 time( 时 间 )、sip( 源 IP) .dip( 目 的 IP) .proto( 协 议 ) .dport( 目 的 端口 ) .uplen( 上 行 字 节 
数 ) .downlen( 下 行 字 节 数 ) 


3. 问题 


(1) 找 出 TSZNet 公司 内 部 网 络 中 的 客户 端 与 服务 器 ,并 给 出 该 公司 网 络 的 体系 结 
构 拓 扑 图 。 

(2) 对 TSZNet 公司 内 部 网 络 中 的 服务 器 进行 分 类 ,分 类 标准 不 限 ,比如 按照 功能 、 
时 间 特 点 ,行为 特点 、 流 量 特点 等 。 

(3) 说 明 TSZNet 公司 内 部 网 络 的 客户 端 -服务 器 ,客户 端 -客户 端 ,服务 器 -服务 器 之 
间 的 常规 通信 模式 。 


4, 解答 


(1) 通过 对 一 周 tcpflow 数据 的 可 视 分 析 , 找 出 TSZNet 公司 内 部 网 络 中 的 客户 端 与 
服务 器 ,并 给 出 该 公司 网 络 体系 结构 拓扑 图 。 
首先 ,根据 日 志 记录 中 内 网 与 内 网 之 间 的 通信 数据 ,用 力 导 向 图 来 表示 内 网 之 间 的 通 


信 ( 图 3-18) ,每 一 个 节点 代表 一 个 主机 。 用 连 线 表示 两 台 主 机 之 间 有 通信 , 连 线 的 宽度 
代表 两 个 节点 之 间 的 流量 大 小 ,其 中 颜色 表示 使 用 最 多 的 通信 协议 ,节点 的 大 小 表示 流 
量 。 从 图 3-18 中 可 以 看 出 ,有 一 些 主机 与 很 多 台 主 机 都 有 连接 关系 ,并 且 流 量 大 于 大 多 
数 主机 ,那么 可 以 认为 该 主机 可 能 为 服务 器 。 然 后 依次 找 出 可 能 是 服务 器 的 主机 ,如 图 中 
黑 框 内 所 示 ,然后 进行 下 一 次 筛选 。 





图 3-18 内 网 通信 的 力 导 向 图 


其 次 ,根据 第 一 次 筛选 结果 再 次 画 出 通信 网 络 图 (图 3-19), 然 后 从 中 去 除 孤 立 的 点 
和 度 小 于 平均 度 的 节点 。 剩 下 的 基本 可 以 确定 为 服务 器 。 











3-19 通信 网 络 图 


3-20 表示 内 网 主机 与 服务 器 之 间 的 通信 关系 ,其 中 白色 的 节点 表示 客户 端的 IP 
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Et ,精确 到 每 个 IP 地 址 的 前 3 段 ,如 10.59. 23. X。 红 色 的 代表 服务 器 ,同样 ,服务 器 流 


量 用 节点 大 小 编码 。 





图 3-20 内 网 主机 与 服务 器 之 间 通 信 关 系 的 力 导向 图 


图 3-21 为 公司 网 络 体系 结构 拓扑 图 。 从 通信 上 日志 可 以 看 出 ,公司 内 部 使 用 A 类 私有 
地 址 ,因此 可 以 根据 客户 端 IP 所 在 的 IP 段 来 对 客户 端 进行 每 个 网 段 内 的 主机 通过 
核心 交换 机 与 内 网 中 其 他 网 段 主 机 和 服务 器 进行 通信 。 服 务 器 与 核心 交换 机 直接 相连 ， 
内 网 主机 通过 代理 服务 器 访问 外 网 。 


Internet 
代理 服务 器 8g 
OD y 核心 交换 机 。 邮件 服务 器 © 
Web 服 务 器 pitt 


数据 库 服 | 
安全 认证 服务 器 


10.64.Xx.X caf 10.59.X.X œ gi ae ‘a 10.41.X.X 





图 3-21 公司 网 络 体系 结构 拓扑 图 

(2) 通过 对 一 周 的 tcpflow 数据 的 可 视 分 析 , 对 TSZNet 公司 内 部 网 络 的 服务 器 进行 
分 类 ,分 类 标准 不 限 , 比 如 按照 功能 \ 时 间 特 点 ,行为 特点 、 流 量 特 点 等 。 
主要 通过 功能 来 对 服务 器 进行 分 类 ,因此 主要 通过 日 志 记 录 中 的 协议 来 区 分 每 台 服 








101 


务 器 的 功能 。 首 先 使 用 Python 统计 出 每 台 服务 器 通过 什么 样 的 协议 与 多 少 台 不 同 的 客 
户 端 主机 通信 ,然后 根据 这 些 统计 数据 做 分 析 。 

根据 统计 结果 ,使 用 了 热点 图 的 可 视 化 方式 来 从 中 发 现 每 台 服 务 器 的 类 型 (图 3-22) 。 
在 图 3-22 中 , 横 轴 表示 每 台 服 务 器 的 IP, 纵 轴 表 示 服 务 器 使 用 的 协议 ,然后 可 以 画 出 热点 
图 ,其 中 每 个 矩形 都 对 应 一 台 服 务 器 和 协议 ,颜色 表示 对 应 的 服务 器 通过 对 应 的 协议 通信 
的 客户 端的 数量 。 颜 色 越 深 ,代表 与 之 通信 的 客户 端 数 量 越 多 ;而 颜色 浅 的 代表 对 应 的 服 
务 器 通过 对 应 的 协议 与 客户 端 通信 数量 比较 少 甚至 没有 。 从 图 3-22 中 可 以 看 出 , HTTP 
协议 使 用 最 多 ,那么 可 以 推断 出 这 些 服 务 器 中 大 都 是 Web 服务 器 。 








图 3-22 服务 器 类 型 的 热点 图 


此 外 ,可 以 通过 交互 的 方式 来 查看 某 台 服务 器 通过 某 种 协议 与 多 少 台 客户 端 进行 通 
信和 (图 3-23)。 对 于 一 台 服 务 器 而 言 .主要 通过 判断 颜色 的 深浅 来 确定 这 台 服 务 器 主要 使 
用 的 协议 。 在 图 3-23 中 ,查看 了 10. 59. 223. 186 这 台 服 务 器 通过 HTTP 协议 与 多 少 台 
客户 端 通信 ,鼠标 移动 到 对 应 的 矩形 上 的 时 候 , 就 会 显示 对 应 的 矩形 代表 的 信息 。 如 图 所 
示 ,10. 59. 223. 186 这 台 服 务 器 通过 HTTP 协议 与 超过 10 000 台 客 户 端 通信 (大 于 
10 000 的 记 为 10 000) ,那么 可 以 确定 10. 59. 223. 186 这 台 服 务 器 的 类 型 为 Web 服务 器 。 

最 后 ,图 3-24 表示 对 服务 器 进行 分 类 的 结果 ,使 用 分 区 图 来 表示 ,最 上 面 一 层 是 根 
节点 ,表示 下 面 的 都 是 服务 器 ,第 二 层 和 第 三 层 分 别 表 示 服 务 器 的 类 型 和 服务 器 的 IP, 
颜色 相同 表示 的 是 同一 种 类 型 的 服务 器 。 从 图 中 可 以 看 出 服务 器 总 共 分 为 8 类。 有 
Web 服务 器 、 代 理 服 务 器 、dns_ldap 服务 器 、 文 件 服 务 器 .邮件 服务 器 和 数据 库 服务 
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图 3-23 ”服务 器 与 客户 端 通信 的 热点 图 





图 3-24 服务 器 分 类 结果 的 树 图 
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服务 器 、 客 户 端 


图 3-25 所 示 。 


(3) 通过 对 一 周 的 tcpflow 数据 的 可 视 分 析 ,说明 TSZNet 公司 内 部 网 络 的 客户 端 - 


-客户 端 ,服务 器 -服务 器 之 间 的 常规 通信 模式 。 


为 了 发 现 客户 端 与 服务 器 之 间 的 通信 模式 ,根据 内 部 通信 数据 绘制 平行 坐标 系 , 如 





因为 客户 端 数量 比较 多 ,不 适合 使 用 D3. js 同时 绘制 ,所 以 使 用 IP 段 来 表 


示 , 图 中 左边 坐标 轴 表 示 客 户 端 IP 段 ,中 间 表 示 使 用 的 协议 ,右边 表示 服务 器 IP。 然 后 
根据 数据 ,将 有 通信 关系 的 客户 端 和 服务 器 通过 使 用 的 协议 连接 起 来 。 





通信 。 例 如 ,10. 26. X. 
行 


以 看 出 ,服务 器 与 服务 器 之 间 主 要 通过 http .ldap .dns .dec_rpec 等 协议 进行 通信 。 
客户 端 与 客户 端 之 间 的 通信 模式 同样 使 
左右 两 端 分 别 表示 网 段 , 因 





图 3-25 


内 部 通信 的 平行 坐标 系 


从 图 中 可 以 看 出 ,在 客户 端 与 服务 器 的 常规 通信 模式 中 ,使 用 http 协议 和 unknown 
四 议 居多 ,http 为 常规 的 web 通信 协议 , unknown 协议 猜测 可 能 为 公司 内 部 开发 的 通信 
办 议 。 此 外 ssl 和 ssh 协议 也 使 用 比较 多 ,表示 客户 端 和 服务 器 通过 比较 安全 的 方式 进行 
通信 。 其 他 使 用 比较 多 的 通信 协议 还 有 http_proxy, mysql, smb 等 。 

在 图 3-25 中 可 以 看 出 整体 通信 模式 ,当然 也 可 以 查看 指定 的 客户 端 卫 段 的 主要 的 
通信 模式 ,如 图 3-26 所 示 ,可 以 选择 查看 特定 的 客户 端 通过 什么 样 的 协议 与 哪些 服务 器 


了 通信 。 


X 这 个 网 段 内 的 主机 主要 通过 http, unknown 等 协议 与 服务 器 进 


服务 器 与 服务 器 之 间 通 信和 模式 使 用 如 图 3-27 所 示 的 弧 长 链接 图 来 表示 。 从 图 中 可 























平行 坐标 的 方式 来 展示 ,如 图 3-28 所 示 ， 








为 主机 数量 比较 多 ,所 以 没有 将 所 有 主机 一 一 列 出 。 从 图 中 可 





以 看 出 ,客户 端 与 客户 端 之 间 主 要 通过 unknown, http 等 协议 通信 ,此 外 还 有 ssl, ssh 等 
协议 。 
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图 3-26 ”内 部 通信 的 平行 坐标 系 


unknown 
dce_rpc 
— ldap 


http_proxy 


http_connect 


mysql 


whois-das 





图 3-27 服务 器 与 服务 器 通信 的 弧 长 链接 图 
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图 3-28 客户 端 与 客户 端 通信 的 平行 坐标 系 


5. 模拟 实时 通信 

在 完成 预 设 问题 之 后 ,结合 所 有 的 数据 ,对 整个 内 部 网 络 中 的 通信 进行 模拟 ,试图 在 
模拟 过 程 中 发 现 网 络 中 流量 的 变化 规律 。 使 用 图 3-29 来 模拟 内 部 网 络 中 的 实时 通信 流 
量 。 其 中 选取 了 一 天 内 的 通信 数据 ,之 后 按照 数据 包 的 时 间 惟 进行 排序 。 在 程序 运行 时 ， 








图 3-29 模拟 内 部 网 络 的 实时 通信 流量 
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2382 数据 可 钢化 


依次 读 取 对 应 时 间 的 数据 ,并 将 其 可 视 化 。 

在 图 3-29 中 ,使 用 两 个 扇形 布局 分 别 表示 客户 端 分 组 和 服务 器 ,客户 端 和 服务 器 之 
间 的 每 次 通信 都 会 经 过 之 间 的 堆 琶 图 。 堆 三 图 分 为 上 下 两 个 部 分 ,上 半 部 分 表示 服务 器 
发 送 给 客户 端的 流量 ,下 半 部 分 表示 客户 端 发 送 给 服务 器 的 流量 。 并 使 用 不 同 的 填充 颜 
色 表 示 不 同 的 协议 。 

在 图 3-29 下 半 部 分 ,使 用 折线 图 实时 记录 时 间 与 网 络 中 流量 的 关系 ,可 以 分 析出 在 
一 段 时 间 之 内 流量 的 变化 规律 。 右 侧 柱状 图 表示 经 过 不 同 协议 传输 数据 流量 的 累积 。 


3.4.2 案例 二 : VAST Challenge 2016 竞赛 题 


1. 简介 


VAST Challenge 2016 要 求 参赛 者 对 GAStech 公司 建筑 物 内 人 员 流 动 以 及 传感器 
数据 进行 分 析 ,建筑 物 总 共有 3 层 ,每 一 层 都 被 分 为 不 同 的 区 域 ,包括 prox 和 HVAC 两 
种 区 域 。 要 求 参赛 者 根据 提供 的 数据 从 中 发 现 员工 一 些 典 型 的 行为 模式 ,并 对 数据 进行 
分 析 , 从 中 发 现 一 些 异 常事 件 。 


2. 数 据 


。 建筑 物 平 面 图 ,包括 prox 区 域 和 HVAC 区 域 。 
雇员 列表 ,包括 雇员 姓名 .职务 和 办 公 室 标记 。 
数据 格式 描述 。 

。 prox FER. 

© 每 个 HVAC 区 域内 的 传感器 读数 。 

Hazium 传感器 读数 。 


3. 问题 


(1) prox 卡 的 典型 模式 是 什么 ? 一 个 GAStech 员工 一 天 的 典型 行为 模式 是 什么 ? 
(2) 描述 10 种 最 有 趣 的 模式 .并 解释 这 些 模式 可 能 的 意义 。 

(3) 描述 10 种 值得 注意 的 异常 事件 ,尤其 是 那些 可 能 进行 危险 操作 的 事件 。 

(4) 描述 5 种 prox 卡 和 其 他 数据 之 间 的 关系 ,并 分 析 可 能 的 因果 关系 。 


4 解答 


根据 题目 要 求 ,需要 对 雇员 和 传感器 两 类 数据 进行 分 析 , 其 中 雇员 数据 主要 包括 雇员 
的 prox 行为 轨迹 以 及 部 门 分 布 。 传 感 器 数据 包括 3 个 楼 层 的 设备 传感器 .通用 传感器 以 
及 Hazium 传感器 。 将 主 界面 分 为 左右 两 大 块 区 域 . 左 侧 对 雇员 数据 可 视 化 , 右 侧 对 各 类 
传感器 进行 可 视 化 ,如 图 3-30 所 示 。 

在 左 侧 , 对 雇员 数据 可 视 化 时 ,使 用 散 点 图 表示 雇员 的 活动 规律 。 横 轴 表 示 时 间 , 纵 
轴 表 示 出 入 区 域 。 并 且 将 不 经 过 楼 梯 / 电 梯 而 直接 穿越 不 同 楼 层 的 活动 定义 为 异常 轨迹 ， 
异常 轨迹 使 用 黄色 圆 点 标注 在 时 间 轴 上 。 


= Floors Sensors 
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图 3-30 整体 设计 图 


器 数量 过 多 ,不宜 同 时 展示 ,因而 设计 了 
E firi 





在 右 侧 对 传感器 数据 可 视 化 时 A WRB FG A 
交互 。 通 过 交互 选择 指定 的 传感器 并 进行 展示 ,进而 分 析 传 感 器 读数 与 时 间 的 关系 
答 预 设 的 问题 。 

(1) prox 卡 的 典型 模式 是 什么 ? 一 个 GAStech 员工 一 天 的 典型 行为 模式 是 什么 ? 

在 图 3-31 中 ,将 prox 卡 数 据 以 散 点 图 的 形式 可 视 化 ,其 中 竖 轴 表示 建筑 物 内 所 有 的 
prox 区 域 , 使 用 横 轴 表示 时 间 。 将 人 员 的 活动 编码 为 不 同 颜 色 的 散 点 。 在 图 3-31 中 ,可 
以 发 现 以 下 几 种 基本 的 模式 : 














图 3-31 prox 卡 数据 的 散 点 图 
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。 公司 内 的 工作 日 为 每 周 的 周一 到 周 五 

。 工作 时 间 从 上 午 7 点 到 晚上 24 点。 

。 在 周末 有 雇员 轮流 值班 。 

通过 分 析 雇 员 的 轨迹 ,可 以 发 现 大 多 数 雇员 只 在 固定 的 某 些 区 域 活动 。 例 如 ,在 























图 3-32 中 ,可 以 看 出 雇员 从 未 在 三 层 活动 ,而 是 大 多 数 时间 出 现在 二 层 。 而 图 3-33 中 ， 
雇员 则 经 常 出 现在 三 楼 。 因 为 建筑 物 的 出 入 口 在 一 楼 ,所 以 每 个 雇员 的 轨迹 都 会 在 第 一 


层 出 现 。 





图 3-32 分 析 雇 员 轨 迹 ( 一 ) 





图 3-33 分析 雇 员 轨 迹 (二 ) 


图 3-34 展示 了 每 个 雇员 在 不 同 prox 区 域 的 轨迹 。 使 用 不 同 的 颜色 表示 不 同 楼 层 的 
prox 区 域 。 红 色 表 示 一 楼 ,绿色 表示 二 楼 , 蓝 色 表示 三 楼 。 点 的 大 小 表示 经 过 这 个 区 域 













的 人 员 流 量 。 使 用 线条 表示 雇员 的 轨迹 , 同 楼 层 之 间 的 轨迹 使 用 灰色 线条 表示 ,不 同 楼 层 
之 间 的 轨迹 使 用 对 应 楼 层 的 颜色 表示 。 对 雇员 轨迹 的 模拟 中 可 以 发 现 : 


。 每 个 雇员 在 进入 建筑 物 都 会 经 过 一 楼 的 第 一 个 prox 区 域 
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图 3-34 雇员 在 不 同 prox 区 域 的 轨迹 图 


。 雇员 大 多 数 时 间 都 在 同一 楼 层 内 活动 ,因为 同一 楼 层 内 的 轨迹 明显 多 于 不 同 楼 层 
之 间 的 轨迹 。 
(2) 描述 10 种 最 有 趣 的 模式 ,并 解释 这 些 模式 可 能 的 意义 。 
图 3-35 使 用 折线 图 展示 了 Hazium 传感器 数据 的 读数 ,可 以 从 图 中 发 现 4 个 
Hazium 传感器 的 变化 规律 几乎 一 致 ,说 明 这 4 个 区 域 是 互通 的 ,其 中 一 个 区 域 的 
Hazium 浓度 变化 会 引起 其 他 3 个 浓度 的 变化 











图 3-35 Hazium 传感器 数据 读数 的 折线 图 





图 3-36 展示 了 热水器 燃气 消耗 和 热水器 水 箱 温度 的 变换 规律 ,从 图 中 可 以 发 现 , 在 
上 班 时 间 两 个 传感器 的 数据 会 上 下 波动 ,而 夜晚 或 者 周末 则 处 于 稳定 状态 。 


= General Sensors 





TT 


图 3-36 热水器 燃气 消耗 和 热水器 水 箱 温度 变换 规律 的 折线 图 
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图 3-37 展示 了 建筑 物 内 所 有 区 域 的 照明 电路 的 开关 ,从 图 中 可 以 看 出 ,这 些 照 明 电 
源 也 是 随 着 工作 时 间 变 化 的 。 





= Floor3 Sensors 


= Floor2 Sensors 


I 


建筑 物 内 所 有 区 域 的 照明 电路 开关 图 





图 3-37 


图 3-38 展示 了 通风 口 处 二 氧化 碳 浓度 传感器 
量变 化 ,在 工作 时 间 , 随 着 员工 数量 的 增加 ,二 
间 ,二氧化碳 的 浓度 则 会 降低 。 






读数 的 变化 , 它 可 以 大 致 反映 员工 的 数 
t 碳 的 浓度 也 会 随 之 升 高 ;而 在 非 工 作 时 


= Floor3 Sensors 


= Floor2 Sensors 


= Floorl Sensors 





图 3-38 通风 口 处 二 氧化 碳 浓度 传感器 读数 变化 的 折线 图 
图 3-39 展示 了 建筑 物 内 设备 用 电量 的 变化 规律 , 它 反映 了 电力 设备 在 工作 时 间 内 的 
周期 性 , 即 工 作 时 间 内 的 功 耗 比 下 班 时 间 大 得 多 
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Floor2 Sensors 


= Floorl Sensors 





图 3-39 建筑 物 设备 用 电量 变化 规律 图 


图 3-40 反映 了 干 球 温度 传感器 的 读数 变化 ,从 图 中 可 以 看 出 这 个 温度 传感器 的 读数 
变化 比较 稳定 ,说明 在 这 段 时 间 内 没有 由 温度 变化 引起 的 异常 。 





图 3-40 干 球 温度 传感器 的 读数 变化 图 





Pe] 3-41 展示 了 不 同 部 门 的 雇员 分 布 ,从 图 中 可 以 看 出 工程 部 的 人 数 多 于 其 他 部 门 的 
人 数 ,而 人 力 资源 部 仅 有 3 个 雇员 。 

到 3-42 中 对 一 层 的 区 域 6 分 析 发 现 ,在 每 个 工作 日 ,都 会 有 同一 个 雇员 出 现在 这 个 
区 域 ,查询 建筑 平面 图 发 现 这 个 区 域 为 配置 室 。 可 以 看 出 ,建筑 物 内 的 设施 都 有 专门 的 维 
护 人 员 进 行 维护 。 

图 3-43 展示 了 HVAC 区 域 的 用 电量 和 Hazium 之 间 的 关系 ,从 中 可 以 发 现 , 当 
Hazium 浓度 升 高 时 ,HVAC 区 域 的 用 电量 也 会 升 高 .可 以 看 出 ,在 Hazium 浓度 升 高 时 
建筑 物 内 会 启动 某 些 设备 进行 通风 。 

到 3-44 展示 了 prox 卡 的 散 点 图 ,从 图 中 可 以 发 现在 两 周 内 没有 人 员 出 现在 三 层 的 
区 域 5 和 二 层 的 区 域 5。 在 查询 设计 图 之 后 发 现 , 三 层 的 区 域 5 是 一 个 未 开发 区 域 ,因此 
并 没有 人 员 进 出 ;而 二 层 的 区 域 5 推测 可 能 是 一 个 特别 区 域 , 一 般 的 员工 并 没有 权限 进入 
这 个 区 域 。 
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图 3-41 不 同 部 门 的 雇员 分 布 


= General Sensors 








图 3-43 HVAC 区 域 的 用 电量 和 Hazium 浓度 之 间 的 关系 图 
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图 3-44 prox 卡 散 点 图 


(3) 描述 10 种 值得 注意 的 异常 事件 ,尤其 是 那些 可 能 进行 危险 操作 的 事件 。 

从 图 3-45 中 可 以 发 现 ,在 6 月 1 日 1 点 左右 ,ID 为 ibaza001 和 edavies001 的 prox 卡 
在 没有 经 过 楼 梯 的 情况 下 直接 从 一 楼 的 区 域 1 到 二 楼 的 区 域 1, 这 可 能 为 一 个 异常 的 
时 间 。 








6101:00 
ibaza001 
edavies001 





图 3-45 对 ibaza001 和 edavies001 活动 异常 的 分 析 
从 图 3-46 可 以 看 出 ,6 月 7 日 12 点 到 8 日 11 点 ,SUPPLY INLET Temperature 传 
感 器 读数 明显 高 于 其 他 时 间 段 ,因此 这 个 时 间 段 发 生 了 异常 ,并 且 这 个 异常 可 能 是 由 于 
HVAC 系统 的 异常 导致 的 。 


= Floor3 Sensors 





图 3-46 SUPPLY INLET Temperature 传感器 读数 异常 
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从 图 3-47 可 以 看 出 ,一 层 的 区 域 2 的 设备 功率 传感器 明显 与 其 他 时 间 段 不 同 ,也 将 
其 定义 为 一 个 异常 事件 ,并 且 推 测 可 能 是 与 建筑 物 内 其 他 异常 事件 有 关联 。 











= Floorl Sensors 





图 3-47 一 层 的 区 域 2 设备 功率 传感器 异常 
图 3-48 中 ,电源 功率 在 6 月 7 日 的 7 点 和 8 日 的 7 点 的 读数 高 于 其 他 时 间 段 ,因此 推 
测 在 这 两 个 时 间 点 出 现 了 异常 事件 导致 某 些 设备 自动 启动 








图 3-48 电源 功率 异常 





图 3-49 展示 了 Availability Manager Night Cycle Control Status 的 读数 ,对 比 3 个 楼 
层 的 读数 可 以 发 现 , 一 层 和 二 层 的 读数 都 符合 工作 时 间 规律 .而 三 层 的 读数 则 一 直 没 有 变 
化 , 据 此 推测 三 层 的 这 个 设备 可 能 损坏 或 被 人 为 关闭 。 


= Floor3 Sensors 


= Floor2 Sensors 


= Floorl Sensors 





图 3-49 Availability Manager Night Cycle Control Status 的 读数 异常 
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图 3-50 展示 了 冷却 系统 的 功率 ,对 比 可 以 发 现 3 个 楼 层 的 这 些 传感器 的 读数 在 6 月 
7 日 和 8 日 都 出 现 了 升 高 。 因 此 可 以 推测 这 两 天 发 生 了 某 些 异常 事件 ,导致 建筑 物 内 冷 
却 系统 用 电量 升 高 。 











Floor3 Sensors 


Floor2 Sensors 


Floor] Sensors 





图 3-50 冷却 系统 的 功率 异常 
图 3-51 展示 了 3 个 楼 层 的 风扇 用 电功率 ,在 周末 的 时 候 , 二 层 和 三 层 的 功率 下 降 ,而 
: 层 的 功率 却 上 升 , 说 明 在 周末 的 时 候 三 层 出 现 了 异常 事件 导致 风扇 用 电量 增加 。 


= Floor3 Sensors 


= Floor2 Sensors 


= Floorl Sensors 
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图 3-51 3 个 楼 层 的 风扇 用 电功率 异常 
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在 图 3-52 所 示 的 人 员 活 动 散 点 图 中 ,可 以 发 现在 第 二 个 周末 时 ,建筑 物 内 除了 值班 
人 员 之 外 还 有 其 他 人 员 活 动 ,结合 Hazium 浓度 可 以 发 现 ,在 同一 时 间 段 ,Hazium 的 浓度 
也 上 升 了 ,因此 推测 可 能 是 这 些 人 员 的 行为 导致 Hazium 浓度 上 升 。 














| = Hazium Sensors 





图 3-52 人员 活动 散 点 图 





图 3-53 展示 了 温度 控制 器 冷却 值 读数 变化 ,在 6 月 7 日 到 9 日 ,3 个 楼 层 的 读数 变化 
明显 与 其 他 时 间 段 的 变化 规律 不 同 ,因此 推测 在 这 个 时 间 段 出 现 了 异常 事件 导致 温度 控 
制 器 的 读数 发 生变 化 。 


Floor3 Sensors 


= Floor2 Sensors 


Floorl Sensors 





图 3-53 温度 控制 器 冷却 值 读 数 异常 


117 


在 图 3-54 ih 对 比 3 个 楼 层 的 系统 冷却 电源 用 电量 和 Hazium 浓度 变化 发 现 , 从 6 月 
7 点 开始 ,在 Hazium 的 浓度 开始 升 高 的 同时 ,3 个 楼 层 的 冷却 系统 用 电量 也 随 之 升 
高 ,可 以 推测 ， a Hazium 浓度 升 高 时 ,系统 会 自动 启动 某 些 设备 来 调节 浓度 的 变化 ,因此 


用 电量 也 会 随 之 升 高 。 





























H = Floor3 Sensors 


= Floor2 Sensors 


Floor Sensors 


= Hazium Sensors 





图 3-54 3 个 楼 层 的 系统 冷却 电源 用 电量 和 Hazium 浓度 变化 
(4) 描述 5 种 prox 卡 和 其 他 数据 之 间 的 关系 ,并 分 析 可 能 的 因果 关系 
从 图 3-55 中 可 以 发 现 三 层 的 区 域 5 没有 人 员 活 动 ,经 过 查询 设计 图 后 发 现 这 个 区 域 
为 未 开发 区 域 。 





图 3-55 三 层 prox 卡 散 点 图 








在 图 3-56 中 ,发 现 雇员 在 穿越 不 同 楼 层 时 候 基本 上 都 会 经 过 每 层 的 区 域 4, 在 查询 设 
计 图 后 发 现 每 层 的 区 域 4 为 电梯 或 者 楼 梯 。 
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Ele/stairs 





图 3-56 雇员 运动 轨迹 图 


在 图 3-57 中 ,发 现 没有 人 员 进 出 二 层 的 区 域 5, 但 是 设计 图 上 并 没有 这 个 区 域 的 说 
明 , 因 此 推测 这 个 区 域 为 一 个 限制 区 域 , 一 般 的 员工 并 不 能 进入 这 个 区 域 。 








图 3-57 二 层 prox 卡 散 点 图 





从 图 3-58 中 ,发 现 只 有 两 个 特定 的 雇员 出 现在 一 层 的 区 域 6, 在 查询 prox 区 域 设 计 
图 后 发 现 这 个 区 域 为 配置 室 , 因 此 可 以 推测 这 两 个 雇员 为 管理 员 , 只 有 这 两 个 雇员 才 有 权 
限 进 入 这 个 区 域 。 

















图 3-58 一 层 prox 卡 散 点 图 
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从 图 3-59 中 ， ed 层 的 区 域 1 人 流量 最 大 ,并 且 所 有 的 人 员 
在 进入 建筑 都 会 经 过 这 个 区 域 , 而 这 个 区 域 为 进出 建筑 的 唯一 通道 。 





Ele/stairs 





图 3-59 雇员 运动 轨迹 图 
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本 章 从 可 视 化 的 概念 出 发 ,论述 了 可 视 化 技术 的 分 类 与 可 视 化 效果 的 评判 标准 ;针对 
大 数据 发 展 的 需求 ,特别 选择 了 两 类 数据 类 型 的 可 视 化 : 高 维 数据 可 视 化 和 网 络 数据 可 
视 化 。 

高 维 数据 可 视 化 中 介绍 了 两 种 常见 的 降 维 处 理 方 法 : 主 成 分 分 析 
(PrincipleComponent Analysis. PCA) 和 多 维 尺 度 分 析 (MultiDimensional Scaling, 
MDS) ;以 及 常见 的 高 维 数据 可 视 化 方法 : 星 型 图 (Star Plots) 、 切 尔 诺 夫 脸 谱 图 (Chernoff 
Faces) . 散 点 图 矩阵 (CScatterplot Matrix) 和 平行 坐标 (Parallel Coordinates)。 

网 络 数据 可 视 化 中 介绍 了 最 常用 的 节点 一 链接 和 相 邻 矩阵 两 种 网 络 布局 方法 以 及 使 
用 混合 布局 来 实现 多 视图 模式 的 原则 。 其 中 节点 一 链接 布局 中 对 力 引 导 (Fruchterman 
— Reingold) f J , & 4E R BE 4} Br (Multidimensional Scaling) 布 局 以 及 弧 长 链接 图 (Arc 
Diagram) 进 行 了 详细 描述 。 

最 后 ,在 此 基础 上 介绍 了 两 个 具体 的 可 视 化 实例 ,学 生 可 以 借助 实例 建立 自己 的 可 视 
化 方案 ,从 而 达到 从 理论 到 实践 的 提升 。 
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36 J 题 


1. 用 MATLAB 实现 PCA。 

2. 只 知道 空间 中 的 点 (样本 ) 的 距离 ,那么 怎么 来 重 构 这 些 点 的 相对 位 置 呢 ? GER: 
用 MDS 方法 解决 。) 

3. 根据 “2014 年 美国 各 州 的 犯罪 率 ? 数 据 画 星 形 图 或 切 尔 诺 夫 脸谱 图 (Chernoff 
Faces), CHE FRH: http: //www. ojjdp. gov/ojstatbb/crime/JAR. asp.) 

4. 以 音 尾 花 数 据 为 例 , 画 散 点 图 和 矩阵 或 平行 坐标 。( 数 据 下 载 网 址 : http: //wenku. 
baidu. com/link? url= _Lup8DTSRSf{MZnZPI5kPCgAoeSQY YsTDn9EdNVENFzSOfL_ 
fIwjiY Vu8rA V3pAmuPawieMk4 HX630qK wPycQ6m4hTslW lcbmbxjAlredEL Ha. ) 

5. 对 高 维 数据 可 视 化 的 方法 进行 优 缺 点 总 结 。 

6. 采用 多 种 算法 对 MNIST 数据 集 降 维和 可 视 化 ,并 对 实验 结果 作出 说 明 。 

7. 已 知 中 国 几 大 城市 之 间 的 距离 ,但 是 不 知道 它们 的 经 纬度 , 求 它们 之 间 的 相对 位 
置 关系 。( 提 示 : 用 MDS 方法 分 析 。) 
































北京 | 天 津 | 上 海 | 重庆 | 呼和浩特 | 乌鲁木齐 | 拉萨 | 银川 | 南宁 | 哈尔滨 
北京 0 | 125 | 1239 | 3026 480 3300 3736 | 1192 | 2373 | 1230 
天 津 125 0 | 1150 | 1954 604 3330 3740 | 1316 | 2389 | 1207 
上 海 1239 | 1150 0 | 1945 | 1717 3929 4157 | 2092 | 1892 | 2342 
重庆 3006 | 1954 | 1945 0 | 1847 3202 2457 | 1570 | 993 | 3156 
呼和浩特 480 | 604 | 1717 | 1847 0 2825 3260 | 716 | 2657 | 1710 
乌鲁木齐 | 3300 | 3330 | 3929 | 3202 | 2825 0 2668 | 2111 | 4279 | 4531 
拉萨 3736 | 3740 | 4157 | 2457 | 3260 2668 0 | 2547 | 3431 | 4967 
银川 1192 | 1316 | 2092 | 1570 716 2111 2547 0 | 2673 | 2422 
南宁 2373 | 2389 | 1892 | 993 | 2657 4279 3431 | 2673 0 | 3592 
哈尔滨 1230 | 1207 | 2342 | 3156 1710 4531 4967 | 2422 | 3592 0 



































8. 利用 学 习 到 的 可 视 化 方法 , 任 选 两 种 实现 ,可 以 是 上 面 的 弧 长 链接 法 、 相 邻 和 矩阵 
法 \ 力 引导 法 或 者 其 他 方法 ,例如 邻接 图 ,矩阵 树 图 气泡 图 。 


9. 比较 混合 布局 的 MatrixExplorer 和 NodeTrix 两 种 方法 ,分 析 它 们 的 优 缺点 。 
10. 根据 本 章 的 案例 分 析 ,自己 做 一 个 小 型 案例 分 析 系 统 。 
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数据 关联 分 析 


本 章 主要 关注 在 大 数据 分 析 中 数据 对 象 之 间 的 关联 分 析 方 法 ,从 而 发 现 大 数据 下 对 
象 之 间 的 隐 含 关系 及 相互 影响 ,确定 是 否 存 在 一 (多 ) 事 件 的 发 生 ,引发 了 另 一 (多 ) 事 物 的 
反应 等 。 通 过 这 种 关联 分 析 ,能够 更 好 地 发 现 这 些 现象 的 本 质 , 更 好 地 掌握 事物 的 动态 发 
展 趋势 。 关 联 分 析 技 术 已 经 被 广泛 应 用 在 金融 行业 , 它 可 以 用 于 预测 银行 客户 需求 。 通 
过 应 用 这 些 信息 ,银行 可 以 改善 自身 营销 方案 。 比 如 各 银行 可 以 在 自己 的 ATM 机 上 拥 
绑 顾客 感 兴趣 的 本 行 产品 信息 , 供 使 用 本 行 ATM 机 的 用 户 了 解 。 同 样 ,如 果 数 据 库 中 显 
示 某 个 客户 更 换 了 常住 地 址 ,说 明 这 个 客户 很 有 可 能 新 近 购 买 了 一 栋 更 大 的 住宅 ,因此 该 
客户 可 能 需要 信用 额度 更 高 的 信用 卡 , 或 者 需要 一 个 住房 改善 贷款 ,这 些 产品 信息 都 可 以 
通过 信用 卡 账单 邮寄 给 客户 。 同 样 当 该 客户 打 电 话 咨询 的 时 候 , 在 数据 库 中 显示 的 相关 
信息 可 以 有 力 地 帮助 电话 销售 代表 进行 产品 营销 。 随 着 互联 网 经 济 的 发 展 ,一 些 知名 的 
购物 网 站 也 从 强大 的 关联 分 析 方法 中 受益 。 这 些 购物 网 站 使 用 关联 分 析 方 法 进行 规则 挖 
气 , 可 以 分 析出 用 户 有 意 要 一 起 购买 的 捆绑 包 。 也 有 一 些 购物 网 站 使 用 这 些 规则 设置 相 
应 的 交叉 销售 ,这 就 是 网 上 购物 时 经 常会 在 所 购 商 品 网 页 上 看 见 相关 商品 的 广告 。 

关联 分 析 方法 中 很 多 算法 都 有 着 成 熟 的 应 用 , 正 是 由 于 关联 规则 算法 的 实际 应 用 推 
动 了 机 器 学 习 算 法 的 发 展 , 也 对 数据 分 析 研 究 领 域 产 生 了 巨大 的 影响 。 本 章 将 从 一 个 问 
题 案例 出 发 (4. 1 节 ) ,然后 介绍 关联 规则 分 析 中 的 基本 概念 和 术语 (4.2 节 )。 在 4.3 节 ， 
将 对 3 种 典型 的 频繁 项 集 挖 掘 算法 进行 学 习 , 了 解 关联 规则 挖掘 的 整个 方法 过 程 。 针 对 
大 数据 集 的 出 现 ,为 了 提高 关联 分 析 算 法 的 效率 ,许多 学 者 提出 了 一 些 十 分 有 效 的 处 理 大 
数据 集 的 数据 结构 ,在 4.4 节 将 对 几 种 典型 的 数据 结构 进行 分 析 。 然 而 在 实际 应 用 中 ,并 
不 是 所 有 挖掘 到 的 关联 规则 都 是 有 效 的 ,如 何 评估 它们 的 可 用 性 和 有 效 性 将 成 为 关联 规 
则 分 析 中 的 一 个 重要 研究 内 容 , 在 4.5 节 将 讨论 几 种 典型 的 评估 指标 和 计算 方法 。 接 下 
来 将 把 讨论 扩展 到 频繁 项 集 挖掘 的 一 些 高 级 方法 ,比如 多 维 关联 规则 挖掘 (4.6 节 ) 以 及 
多 层 关联 规则 挖掘 (4.7 节 )。 最 后 使 用 Python 语言 给 出 了 一 个 经 典 的 Apriori 算法 应 用 
案例 的 全 过 程 (4. 8 节 )。 








41 数据 关联 分 析 简 介 


为 了 便于 概念 理解 ,下 面 将 通过 一 个 超市 的 销售 案例 介绍 关联 规则 算法 的 应 用 。 
例 4-1 某 大 型 超市 为 了 能 够 科学 合理 地 重新 布置 货架 和 物品 ,根据 顾客 的 购买 事 
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务 数据 进行 了 购物 篮 分 析 , 有 效 地 解决 了 问题 。 商 场 的 原 有 布局 模式 比较 单一 ,例如 , 食 
品 区 域 只 是 简单 地 分 为 食品 和 饮料 。 货 架 和 物品 的 原 有 摆 放 如 图 4-1 所 示 。 
饮料 


FE = 
碳酸 饮料 啤酒 牛奶 ， 酸 奶 (冷藏 ) 食品 区 




































































主食 | Fe 
图 4-1 商品 的 原 有 布局 











顾客 购物 的 交易 数据 如 表 4-1 所 示 ,为 简单 描述 关联 分 析 算法 应 用 的 情况 ,在 这 里 只 
抽取 10 条 数据 和 6 个 特征 进行 展示 。 


表 4-1 顾客 购物 交易 数据 
































订单 号 啤酒 碳酸 饮料 主食 牛奶 酸奶 零食 
08012101 1 0 1 1 0 1 
08012102 0 1 0 0 1 1 
08012103 1 0 1 1 0 0 
08012104 0 1 0 0 0 1 
08012105 1 0 1 0 0 1 
08012106 0 1 0 0 1 0 
08012107 0 1 0 0 0 1 
08012108 1 0 0 0 0 1 
08012109 1 了 1 1 0 0 
08012110 0 1 0 0 1 1 




















在 数据 表 中 ,第 一 行为 商品 名 称 , 从 第 二 行 开始 每 一 行 代表 一 个 购物 记录 事务 。 表 中 
的 1 为 购买 ,0 为 没有 购买 。 

在 Weka 软件 平台 上 ,通过 调用 Apriori 算法 ,对 表 4-1 中 的 数据 进行 关联 规则 分 析 ， 
导入 相关 数据 ,调节 Apriori 算法 的 相关 参数 ,然后 运行 得 到 计算 结果 。 在 最 小 支持 度 为 
0. 45, 最 小 置信 和 度 为 0. 9 的 情况 下 ,得 到 了 9 条 频繁 1 项 集 、17 条 频繁 2 项 集 、13 条 频繁 3 
项 集 、5 条 频繁 4 项 集 、1 条 频繁 5 项 集 。 为 了 让 读者 能 够 理解 分 析 的 过 程 ,在 这 里 对 与 啤 
酒 相关 的 前 5 条 计算 结果 进行 分 析 , 相 关 的 分 析 数 据 如 下 所 示 : 


(1) 啤酒 二 yes 5 一 酸奶 王 no 5 conf; (1) 
(2) 啤酒 一 no 5 一 碳酸 饮料 一 yes 5 conf; (1) 
(3) 啤酒 二 no 5 一 主食 二 no 5 conf: (1) 
(4) 啤酒 二 no 5 习 牛 奶 二 no 5 conf: (1) 
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(5) 主食 一 yes 4 一 啤酒 一 yes 4 conf: (1) 

根据 以 上 计算 的 关联 规则 ,可 以 得 到 如 下 分 析 结 论 : 

。 顾客 在 购买 啤酒 的 情况 下 ,基本 不 会 购买 酸奶 (数据 (1)) 。 

。 顾客 在 未 购买 啤酒 的 情况 下 ,有 很 大 可 能 会 购买 碳酸 饮料 (数据 (2)) 。 

。 顾客 在 未 购买 啤酒 的 情况 下 ,基本 不 会 购买 主食 或 酸奶 (数据 (3) (4)) 。 
。 顾客 在 购买 主食 的 情况 下 ,会 购买 啤酒 (数据 (5)) 。 

通过 分 析 , 得 到 的 结论 如 下 : 

。 啤酒 和 酸奶 不 需 陈 列 在 一 起 ,两 者 之 间 不 会 起 到 互相 促进 销售 的 作用 。 
。 啤酒 和 碳酸 饮料 也 不 需 陈 列 在 一 起 。 

。 啤酒 似乎 可 以 和 主食 .牛奶 陈列 一 起 ,但 从 上 述 规则 不 能 确定 。 

。 啤酒 和 零食 的 规则 无 法 得 到 。 

通过 结合 其 他 数据 的 计算 结果 ,得 到 能 够 相互 促进 购买 的 商品 组 合 如 下 : 

。 BOER. 

。 主食 二 牛奶 。 

。 碳酸 饮料 ~ 酸奶 、 零 食 。 

综 上 ,案例 4-1 得 到 的 超市 重新 布置 货架 和 商品 的 情况 如 图 4-2 所 示 。 


饮料 

















I 
啤酒 碳酸 饮料 | | 酸奶 (冷藏 )| | 牛奶 (冷藏 ) 食品 区 
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搭配 主食 搭配 零售 

















食品 
| ss | 

主食 零食 
| | 


搭配 啤酒 、 搭配 
非 冷藏 牛奶 碳酸 饮料 



































图 4-2 重新 布局 的 商品 


42 基本 概念 


众多 的 模式 分 析 算 法 ,如 聚 类 、 分 类 归纳 、 决 策 树 等 ,都 被 广泛 用 于 数据 分 析 应 用 中 ， 
它们 都 来 源 于 机 器 学 习 领 域 。 但 是 ,频繁 模式 和 关联 规则 广泛 和 成 熟 的 应 用 为 数据 分 析 
的 研究 和 机 器 学 习 的 发 展 起 到 了 极 大 的 推动 作用 。 

频繁 模式 可 以 进一步 描述 成 数据 对 象 间 的 关联 规则 。 如 何 判断 序列 模式 是 否 频繁 ， 
通常 使 用 两 个 基本 的 度量 : 支持 度 (support) 和 和 置信 和 度 (confidence)。 支 持 度 表示 该 序列 
模式 在 所 有 被 考察 的 数据 对 象 中 的 占 比 ,也 就 是 体现 了 该 模式 的 有 用 性 ;置信 度 表示 由 模 
式 的 前 因 推出 后 果 的 可 信 度 ,体现 了 规则 的 确定 性 。 由 频繁 模式 可 以 产生 相应 的 关联 规 
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则 ,在 满足 一 定 条 件 下 ,这 些 推出 的 关联 规则 被 认为 是 有 趣 和 有 用 的 ,有 用 的 关联 规则 可 
以 被 用 于 为 决策 层 和 高 层 管理 人 员 提 供 制定 商品 营销 方式 的 依据 。 

本 节 首 先 介绍 频繁 项 集 和 关联 规则 中 的 基本 概念 和 计算 公式 。 在 频繁 项 集 计算 中 , 往 
往 会 获得 庞大 的 频繁 项 集 , 实 际 使 用 中 通常 只 需要 求 出 闭 项 集 或 极 大 频繁 项 集 , 相 关 概 念 将 
在 4.2.2 节 中 给 出 。 在 关联 规则 的 实际 应 用 中 ,人 们 通常 不 仅 对 数据 集 的 频繁 模式 感 兴趣 ， 
有 时 候 还 会 对 不 频繁 的 稀有 模式 或 负 模式 感 兴趣 ,这 些 概念 定义 将 在 4. 2. 3 节 介绍 。 


4.2.1 频繁 项 集 和 关联 规则 


假设 I 二 { 荆 ,T,,…, 1) 是 项 的 集合 。 给 定 一 个 交易 数据 库 D, 其 中 每 次 交易 事务 T 
(Transaction) 是 了 的 非 空 子 集 . 即 TST, 每 个 TT 都 与 一 个 唯一 的 标识 符 TID 
(Transaction ID) 对 应 。 

定义 4-1 项 集 (itemset)。 是 指 项 的 集合 。 包 含 k 个 项 的 项 集 称 为 k 项 集 。 例 如 集 
合 {computer,printer} 就 是 一 个 2 项 集 。 项 集 的 出 现 频数 是 包含 项 集 的 事务 数 , 简 称 为 项 
集 的 频数 .支持 度 或 计数 。 

定义 4-2 支持 度 (support) 。 简 单 的 字面 理解 就 是 支持 的 程度 ,一般 以 百分比 表示 。 
设 A 是 一 个 项 集 ,在 数据 挖掘 的 关联 分 析 中 ,支持 度 表示 在 所 有 的 事务 中 同时 出 现 A 项 
(或 项 集 ) 的 概率 ,计算 公式 如 下 : 

count(A € T) 


support(A) = = (4-1) 


支持 度 也 可 以 通过 计算 项 集 在 数据 集 D 中 出 现 的 次 数 来 考察 其 频数 ,这 时 也 可 以 称 为 支 
持 度 计 数 。 

定义 4-3 频繁 项 集 (frequent itemset) 。 在 一 个 具体 的 数据 分 析 任 务 中 ,用 户 或 者 领 
域 专家 可 以 自行 设 定 最 小 支持 度 阔 值 ,那么 如 果 项 集 A 的 支持 度 满足 预定 义 的 最 小 支持 
BEREC A 的 支持 度 不 小 于 最 小 支持 度 冰 值 ), 则 A 是 频繁 项 集 。 如 果 一 个 包含 个 项 
的 项 集 的 支持 度 大 于 等 于 最 小 支持 度 阔 值 , 则 该 项 集 称 为 & 频繁 集 。 

定义 4-4 关联 规则 (Association Rule)。 是 有 关联 的 规则 ,可 以 描述 成 一 种 蕴含 式 ， 
比如 A 一 B, 其 中 A 和 B 分 别称 为 关联 规则 的 前 件 (antecedent 或 Left-Hand-Side, LHS) 
和 后 件 (consequent 或 Right-Hand-Side. RHS). 例如 ,在 某 超市 分 析 中 发 现 ,购买 面包 
的 顾客 一 般 会 购买 牛奶 , 则 {面包 } 一 {牛奶 } 就 是 一 条 关联 规则 。 关 联 规则 从 一 个 侧面 揭 
示 了 事务 之 间 的 某 种 联系 。 支 持 度 和 置信 度 总 是 伴随 着 关联 规则 存在 的 ,它们 是 对 关联 
规则 的 必要 补充 。 关 联 规则 支持 度 的 定义 与 频繁 集 支持 度 的 定义 基本 相同 ,只 有 少许 区 
别 。 在 事务 集合 D 中 ,对 某 条 关联 规则 而 言 ,其 支持 度 s 表示 在 所 有 的 事务 中 同时 出 现 A 
和 了 3 的 概率 , 即 P(AB), 其 计算 公式 如 下 : 

count(A U B) 


support(A>B) = [D] 
定义 4-5 置信 度 Cconfidence)。 又 称 为 可 信和 度 , 它 表示 关联 规则 的 前 件 出 现时 后 件 


是 否 也 会 出 现 ,如 果 出 现 ,那么 出 现 的 概率 有 和 多大。 在 事务 集合 D 中 ,对 某 条 关联 规则 
A>B 而 言 ,置信 和 度 表示 A 出 现时 B 同时 出 现 的 概率 , 即 P(B|A)。 例 如 ,在 某 超市 分 析 


(4-2) 


2452 RBARR 


中 ,发 现 置 信和 度 为 100%, 则 A 和 B AY DATA SRA E ee BEY. WR es BE AA WH A 
的 出 现 与 B 是 否 出 现 关系 不 大 。 置 信和 度 的 计算 公式 如 下 : 


support(A U B) 
support(A) 


EIRE, LE — AER E K RE TE P FL RA R E R A H TBE eh RF E 
值 和 最 小 置信 和 度 阔 值 , 如 果 某 个 关联 规则 同时 满足 最 小 支持 度 阔 值 (min_sup) 和 最 小 置 
信 度 阔 值 (min_conf) , 则 认为 这 个 关联 规则 是 有 趣 的 。 

FEM 4-6 强 关 联 规则 。 如 果 某 关联 规则 A 一 B 满足 support(A>B)>min_sup H. 
confidence(A 之 B) 宇 min_conf, 则 称 该 关联 规则 是 强 关联 规则 ,否则 称 为 弱 关联 规则 。 

例 4-2 支持 度 和 和 置信 和 度 分 析 。 

为 了 能 够 更 加 详细 地 阐述 支持 度 和 置信 和 度 , 下 面 以 运动 商品 的 购买 交易 数据 为 例 进 
行 分 析 。 事 务 数据 如 表 4-2 所 示 。 


表 4-2 购买 运动 商品 交易 数据 


confidence(A>B) = (4-3) 




















TID 网 球拍 网 球 运动 鞋 羽毛 球 
1 1 1 1 0 

2 1 1 0 0 

3 0 0 0 

4 1 0 1 0 

5 0 1 1 1 

6 1 1 0 0 














以 上 为 运动 商品 购买 事务 数据 的 前 6 条 数据 和 4 个 特征 ,第 一 行为 商品 名 称 和 事务 
编号 ,第 一 列 为 事务 编号 ,每 个 事务 购买 记录 1 表示 购买 ,0 表示 未 购买 。 项 集 I= (WER 
拍 ,网 球 ,运动 鞋 ,羽毛 球 }。 仅 考虑 频繁 2 项 集 情况 ,讨论 网 球拍 和 运动 鞋 的 关联 规则 关 
系 , 如 果 设 定 最 小 支持 度 阀 值 = 0. 4, 最 小 置信 度 阔 值 6= 0. 4, 在 事务 记录 中 ,第 1、2、3、 
4.6 个 事务 包含 了 网 球拍 ,第 1、4、5 个 事务 包含 了 运动 鞋 。 令 包含 网 球拍 的 事务 集 为 x， 
包含 运动 鞋 的 事务 集 为 y, 则 x^y 二 2, 整个 事务 集合 |D| 二 6, 于 是 关联 规则 “网 球拍 一 运 
动 鞋 ”的 支持 度 和 置信 和 度 计 算 如 下 : 

支持 度 : (zy)/D=0.33( 同 时 包含 x 和 y 的 概率 ) 。 

置信 度 : (way)/x=0, 40 E x REFRA y 的 概率 ) 。 

由 此 关联 规则 “网 球拍 习 运 动 鞋 ” 不 满足 强 关 联 规则 的 定义 。 

同 理 ,分 析 网 球拍 和 网 球 的 关联 关系 ,在 事务 记录 中 ,第 1234.6 个 事务 记录 包含 
了 网 球拍 ,第 1、2、5.6 个 事务 记录 包含 了 网 球 ,因此 网 球 和 网 球拍 为 频繁 2 项 集 。 根 据 支 
持 度 和 和 置信 和 度 的 计算 规则 ,可 以 得 到 支持 度 为 0.5, 置 信 度 为 0.6, 则 关联 规则 “网 球拍 一 
网 球 ” 存 在 关联 ,是 强 关 联 规则 。 

一 般 只 有 支持 度 和 置信 和 度 均 较 高 的 规则 才 是 用 户 感 兴趣 的 ,这 也 是 关联 规则 的 核心 
所 在 。 
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关联 规则 的 挖掘 主要 有 两 个 关键 步骤 : 

(1) 从 数据 集合 中 找 出 所 有 的 频繁 项 集 。 从 数据 集合 中 找到 的 项 目 集合 的 支持 度 必 
须 大 于 等 于 所 设 定 的 最 小 支持 度 阔 值 。 通 常 是 先 找 出 频繁 1 项 集 , 然 后 从 频繁 1 项 集 找 
出 频繁 2 项 集 ,以 此 类 推 ,进一步 从 频繁 & 项 集中 再 产生 频繁 十 1 项 集 ,直到 无 法 再 找到 
更 长 的 频繁 项 集 为 止 。 

(2) 从 找到 的 所 有 长 度 大 于 2 的 频繁 & 项 集中 产生 关联 规则 。 利 用 步骤 (1) 产 生 的 
长 度 大 于 等 于 2 的 频繁 项 集 来 产生 规则 , 若 一 规则 所 求 得 的 置信 度 满 足 最 小 置信 度 阔 值 ， 
称 此 规则 为 强 关 联 规则 。 


4.2.2 闭 项 集 和 极 大 频繁 项 集 


从 庞大 数据 集中 挖掘 频繁 项 集 常 常 出 现 的 问题 是 产生 大 量 满足 最 小 支持 度 冰 值 的 项 
集 , 当 最 小 支持 度 贱 值 (min_sup) 设 置 得 很 低 时 更 是 如 此 。 主 要 是 因为 一 个 项 集 是 频繁 
的 , 则 它 的 每 一 个 子 集 都 是 频繁 项 集 , 一 个 长 项 集合 可 以 包含 了 组 合 个 数 的 频繁 子 集 。 例 
如 ,一 个 长 度 为 100 的 频繁 项 集 {a ,az ,…'aioo } 包 含 了 100 个 频繁 1 项 集 和 4950 个 频繁 
2 IÆ {a saz} s {a1 saz} s**t, {a1 saro } s {az saz } s {az sas } s**t s {az saio } s**t» {ass saio } s LA 
此 类 推 。 这 样 ,频繁 项 集 的 总 个 数 约 为 1.27X10”。 可 见 , 如 果 要 获取 关联 规则 ,项 集 个 
数 越 多 ,意味 着 关联 规则 分 析 所 要 花费 的 时 间 和 空间 越 大 ,对 于 计算 机 的 计算 能 力 和 存储 
都 提出 了 更 高 的 要 求 。 而 实际 应 用 中 ,并 不 需要 分 析 所 有 满足 条 件 的 频繁 项 集 和 关联 规 
则 ,因此 ,为 了 让 分 析 具 有 一 般 性 ,提出 了 闭 频繁 项 集 和 极 大 频繁 项 集 等 概念 。 

定义 4-7 超 项 集 (super itemset) 。 若 一 个 集合 S: 中 的 每 一 个 元 素 都 在 集合 S 中 ， 
ARES, 中 可 能 包含 S 中 没有 的 元 素 , 则 集合 S 就 是 S: 的 一 个 超 项 集 。 若 S HES, 
的 超 项 集 , 则 S: 是 S 的 子 集 。 

定义 4-8 闭 频繁 集 (closed frequent itemset) 。 在 事务 数据 库 D 中 ,对 于 一 个 项 集 
X, 它 的 真 超 项 集 Y 的 支持 度 计数 不 等 于 它 本 身 的 支持 度 计数 , 则 它 称 为 数据 集 D 的 闭 
项 集 。 如 果 闭 项 集 X 在 数据 集 中 同时 也 是 频繁 的 ,也 就 是 它 的 支持 度 大 于 等 于 最 小 支 
FERE BIE IB ERKA D 中 的 闭 频繁 项 集 。 

定义 4-9 MAME (maximal frequent itemset) WE X 是 数据 集 D 中 的 一 个 频 
繁 项 集 ,而 且 X 的 任意 一 个 超 项 集 Y 都 是 非 频繁 的 , 则 称 X 是 数据 集 D 中 的 极 大 频繁 项 
集 , 也 就 是 说 ,如 果 X 这 个 频繁 项 集 进 一 步 扩充 就 不 是 频繁 集 了 。 

从 以 上 定义 看 出 ,3 种 频繁 项 集 间 存 在 如 下 的 关系 : 极 大 频繁 集 志 闭 频繁 集 二 频繁 
项 集 。 不 过 在 实际 应 用 中 , 极 大 频繁 集会 丢失 很 多 信息 。 例 如 在 超市 商品 销售 分 析 中 ,可 
能 在 同时 购买 酒 、 花 生 和 饼干 的 人 群 中 还 有 一 部 分 同时 也 购买 了 洗 发 水 ,其 项 集 的 支持 度 
也 达到 了 最 小 支持 度 阔 值 ,那么 项 集 { 酒 、 花 生 、 饼 干洗 发 水 } 就 是 项 集 { 酒 花生、 饼干 } 的 
一 个 超 项 集 ,这 样 项 集 { 酒 、 花 生 、 饼 干 } 这 个 食品 集合 的 独特 性 就 不 会 在 极 大 频繁 集 里 出 
现 ;而 闭 频繁 集 就 能 够 保留 这 类 独特 食品 频繁 项 集 的 信息 ,可 以 继续 被 拆 分 为 频繁 项 集 来 
获得 有 用 的 关联 规则 。 

例 4-3 闭 频繁 集 和 极 大 频繁 集 分 析 。 

为 了 更 清晰 地 了 解 闭 项 集 和 极 大 频繁 项 集 的 概念 .下面 对 一 个 实例 进行 分 析 , 数 据 信 


202 APARAR 


息 如 表 4-3 所 示 。 


























表 4-3 项 集 列表 

项 集 支持 度 极 大 频繁 集 闭 频 繁 集 
4 NO NO 
5 NO YES 
3 NO NO 
AB 4 YES YES 
AC 2 NO NO 
BC 3 YES YES 
ABC 2 NO NO 











这 里 定义 最 小 支持 度 为 3, 则 A, B,C AB, BC 支持 度 都 大 于 或 等 于 3, 因 此 它们 为 频 
繁 项 集 , 其 中 AB A.B 的 并 集 , 其 他 并 集 以 此 类 推 。 

首先 理解 极 大 频繁 项 集 的 概念 。 如 果 X 是 数据 集 D 中 的 一 个 频繁 项 集 , 而 且 X 的 
任意 一 个 超 项 集 Y 都 是 非 频 繁 的 , 则 称 X 是 数据 集 D 中 的 极 大 频繁 项 集 ,也 就 是 说 ,如 
果 X 这 个 频繁 项 集 进 一 步 扩充 就 不 是 频繁 集 了 。 观 察 表 4-3 可 知 ,A、B 是 频繁 项 集 , 它 
们 的 组 合 超 项 集 AB 也 是 频繁 的 ,这 时 看 AB 的 超 项 集 ABC ,由 表 可 得 它 不 是 频繁 的 ,所 
以 AB 为 极 大 频繁 项 集 。 同 理 ,可 以 得 到 BC 也 为 极 大 频繁 项 集 。 

然后 理解 闭 频 繁 项 集 的 概念 。 在 事务 数据 库 D 中 ,对 于 一 个 项 集 X, 它 的 真 超 项 集 
Y 的 支持 度 计 数 不 等 于 它 本 身 的 支持 度 计数 , 则 它 称 为 数据 集 D 的 闭 项 集 。 如 果 闭 项 集 
X 在 数据 集 D 中 同时 也 是 频繁 的 ,也 就 是 它 的 支持 度 大 于 等 于 最 小 支持 度 阔 值 , 那 它 也 
称 为 D 中 的 闭 频 繁 项 集 。 观 察 表 4-3 可 知 ,A 是 频繁 项 集 , 它 的 超 项 集 AB 的 支持 度 等 
FA 的 支持 度 ,所 以 A 不 是 闭 项 集 。 但 是 项 集 AB 支持 度 大 于 它 的 超 项 集 ABC 支持 度 ， 
则 可 以 得 到 AB 为 闭 项 集 。 同 理 , 可 以 得 到 B 和 BC 为 闭 项 集 。 


4.2.3 ”稀有 模式 和 人 负 模 式 


以 上 介绍 的 都 是 与 挖掘 频繁 模式 相关 的 概念 ,然而 在 数据 分 析 中 ,不 同 的 应 用 需求 需 
要 也 必须 具备 多 种 求解 复杂 问题 的 思维 模式 。 例 如 ,在 饰品 中 宝石 是 稀有 的 ,在 服饰 中 奢 
侈 品 也 总 是 少数 人 才能 够 拥有 的 ,对 这 类 商品 间 的 关联 分 析 挖 掘 也 通常 是 最 让 人 感 兴趣 
的 。 同 样 ,在 超市 商品 销售 分 析 中 ,购买 可 口 可 乐 的 顾客 一 般 不 会 购买 百事 可 乐 ,而 顾客 
购买 了 这 两 种 商品 可 能 就 是 负 相 关 事 件 ,发 现 和 观察 这 种 异常 现象 对 数据 挖掘 同样 起 着 
重要 作用 ,以 上 的 数据 关联 分 析 称 为 稀有 模式 分 析 和 负 模 式 的 分 析 , 因 此 提出 了 稀有 模式 
和 负 模 式 的 概念 。 

EX 4-10 稀有 模式 (rare mode)。 又 称 为 非 频 繁 模式 。 给 定 一 个 用 户 指 定 的 正常 
数 6, 其 满足 0 二 6 二 1, 则 该 类 模式 的 最 小 支持 度 阔 值 通常 定义 为 

Rmin_sup = 6 X min_sup 


其 中 min_sup Ayo STH SE A eh SC BEB AL A ARER AI ERER F OR i IR) HK Se 
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小 支持 度 阔 值 , 这 个 模式 就 称 为 称 有 模式 。 

现 有 的 数据 关联 分 析 基 本 都 是 关注 频繁 模式 的 挖掘 ,希望 通过 这 种 模式 的 挖掘 揭示 
出 数据 集 所 蕴含 的 规律 。 然 而 在 一 些 应 用 领域 ,数据 集中 不 频繁 出 现 的 序列 反而 会 揭示 
出 人 们 未 知 的 规律 。 例 如 在 金融 安全 领域 , 相 比 于 普通 的 交易 行为 ,银行 管理 人 员 更 关注 
非 正常 的 交易 行为 ,比如 欺诈 交易 等 ,但 这 种 欺诈 行为 也 不 是 随机 出 现 的 ,它们 也 具有 一 
些 共 性 的 特征 ,因此 可 以 采用 数据 分 析 中 的 稀有 模式 挖掘 方法 发 现 关联 规则 ,进而 揭示 出 
非 正常 的 稀有 行为 的 特点 。 

定义 4-11 负 模 式 (negative mode) 。 在 数据 集 D 中 , 某 数据 项 集 X 的 出 现 会 减少 另 
一 数据 项 集 Y 的 出 现 , 甚 至 使 得 Y 不 出 现 ,这 一 类 模式 称 为 负 模 式 , 由 此 产生 的 关联 规则 
称 为 负 关 联 规则 。 例 如 ,在 超市 商品 销售 中 ,分 别 购买 可 口 可 乐 和 百事 可 乐 的 支持 度 都 非 
常 高 ,但 是 二 者 存在 很 强 的 负 相 关 性 ,因此 它们 可 以 组 成 负数 据 项 集 , 由 此 而 生成 的 关联 
规则 称 为 负 关联 规则 。 

负 关 联 规 则 的 描述 是 一 个 形 如 X SY 的 表达 式 , 其 中 X,YCT,XmY 一 也,X 称 为 规 
则 的 前 件 ,Y 称 为 规则 的 后 件 。 

在 发 现 负 关 联 规则 的 过 程 中 ,可 以 利用 一 些 正 关联 规则 的 分 析 技 术 , 即 将 负 关 联 规则 
发 现 分 为 两 个 步骤 ,一 是 产生 所 有 的 负数 据 项 集 , 二 是 产生 负 关 联 规则 。 正 如 正 关 联 规则 
可 以 为 经 营 者 管理 层 提供 决策 支持 一 样 , 负 关联 规则 的 发 现 也 能 够 有 助 于 企业 营销 质量 
的 提高 。 负 模式 分 析 的 研究 目前 还 较 少 ,已 有 的 一 些 相关 算法 包括 PNSP、 Negative- 
GSP,.NSPM,PNSPM 等 。 
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关联 规则 是 数据 分 析 中 最 有 效 的 手段 之 一 。 从 关联 规则 挖掘 的 两 个 步骤 可 以 看 出 ， 
分 析 的 关键 和 难点 都 集中 在 频繁 项 集 的 挖掘 上 。 通 过 对 频繁 项 集 的 分 析 , 可 以 发 现在 数 
据 集中 经 常 同时 出 现 的 相关 性 较 大 的 数据 对 象 ,从 而 为 可 能 的 决策 提供 支持 。 目 前 ,对 频 
繁 项 集 分 析 的 研究 不 存在 已 知 的 多 项 式 复杂 度 的 算法 ,普遍 都 需要 进行 计算 量 非常 大 的 
搜索 工作 ,因此 主流 的 频繁 项 集 挖 掘 方法 都 需要 对 搜索 空间 进行 有 效 的 剪 枝 处 理 , 其 解决 
问题 的 思路 可 以 归纳 如 下 : 在 数据 集 的 遍历 上 采用 自 底 向 上 、 自 顶 向 下 或 混合 遍历 的 方 
法 ;在 空间 搜索 上 采用 广度 优先 或 深度 优先 ;在 频繁 项 集 的 产生 上 着 眼 于 是 否 首先 产生 候 
选项 集 。 不 同 的 遍历 方法 和 搜索 策略 产生 了 不 同 的 算法 ,实践 证 明 , 有 些 算 法 适用 于 稀 朴 
事务 集 , 有 些 算 法 适用 于 稠密 事务 集 , 但 是 没有 一 种 挖掘 算法 可 以 很 好 地 解决 所 有 情形 下 
的 问题 ,每 种 相对 较 优 的 算法 都 有 它 具 体 的 适用 环境 。 所 以 , 有 必要 熟知 不 同 算法 的 不 
同 特性 , 掌握 不 同 的 适用 环境 。 

本 节 主 要 介绍 频繁 项 集 挖掘 的 Apriori 算法 的 基本 概念 和 思想 ,该 算法 在 关联 分 析 
中 较为 重要 ,是 主要 的 算法 之 一 。 该 算法 采用 广度 优先 的 搜索 策略 , 自 底 向 上 的 遍历 , 遵 
循 首先 产生 候选 集 进而 获得 频繁 集 的 思路 。Apriori 算法 思想 将 在 4. 3. 1 节 详 细 地 给 出 ， 
具体 的 算法 描述 在 4. 3. 2 节 中 以 伪 代 码 形式 表示 ,在 4. 3.3 节 中 针对 Apriori 算法 存在 可 
能 产生 大 量 的 候选 集 以 及 可 能 需要 重复 扫描 数据 库 多 次 的 问题 ,详细 介绍 改进 的 Apriori 
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算法 , 即 DHP 算法 。 
4.3.1 Apriori 算法 的 核心 思想 


1993 年 ,Agrawal 等 人 首先 提出 了 关联 规则 的 概念 ,同时 给 出 了 相应 的 关联 规则 挖 
掘 算法 AIS, 但 是 性 能 较 差 。1994 年 ,他 们 建立 了 项 目 集 格 空间 理论 ,并 依据 其 中 的 两 个 
定理 ,提出 了 著名 的 Apriori 算法 ,此 后 诸多 研究 人 员 相 继 对 关联 规则 的 挖掘 问题 进行 了 
大 量 的 研究 ,至今 Apriori 仍然 作为 关联 规则 挖掘 的 经 典 算法 被 广泛 讨论 和 应 用 ,已 经 成 
为 一 种 最 有 影响 的 挖掘 关联 规则 频繁 项 集 的 简单 适用 的 算法 。 作 为 最 经 典 的 关联 分 析 算 
法 ,Apriori 算法 采用 广度 优先 的 搜索 策略 , 自 底 向 上 的 遍历 思想 ,遵循 首先 产生 候选 集 进 
而 获得 频繁 集 的 思路 。 该 算法 适合 用 在 数据 集 稀 朴 ,事务 宽度 较 小 ,频繁 模式 较 短 , 最 小 
支持 度 较 高 的 环境 中 ;而 对 于 稠密 数据 和 长 频繁 模式 ,由 于 候选 项 集 占据 大 量 的 内 存 , 计 
算 成 本 急剧 增加 ,数据 集 的 遍历 次 数 加 大 ,因而 该 算法 的 性 能 下 降 。 

不 管 是 哪 种 频繁 项 集 挖掘 算法 ,都 用 到 了 频繁 项 集 的 反 单调 性 原理 。 基 于 该 原理 可 
以 对 搜索 空间 进行 有 效 的 剪 枝 。 

定义 4-12 反 单 调 性 原理 。 如 果 一 个 项 集 是 频繁 的 ,那么 它 的 所 有 子 集 也 是 频繁 
的 ,也 就 是 说 如 果 一 个 项 集 是 非 频 繁 的 ,那么 它 的 所 有 超 集 也 一 定 是 非 频 繁 的 。 

Apriori 算法 的 核心 思想 是 : 首先 扫描 数据 集 ,统计 数据 集中 交易 的 数量 和 各 个 不 同 
的 1 项 集 出 现 的 次 数 ,进而 根据 最 小 支持 度 min_sup 获得 所 有 的 频繁 1 项 集 , 即 Li ,然后 
利用 Ly 查 出 找 频繁 2 项 集 L: ,如 此 继续 ,直到 不 再 有 新 的 频繁 项 集 被 找到 为 止 。 归 纳 起 
来 是 两 个 步骤 : 连接 步 和 剪 枝 步 。 

(1) ERP. HIR LOAK k 项 集 ) ,通过 将 Li 与 自身 连接 产生 项 集 ,该 k 项 集 记 
作 Ce, 但 是 两 两 自 连接 时 只 能 对 只 差 最 后 一 个 项 目 不 同 的 项 集 进 行 连接 。 

(2) 剪 枝 步 。 显 然 超 集中 的 成 员 有 些 是 频繁 的 ,有 些 不 是 频繁 的 。 但 所 有 的 频繁 
项 集 都 包含 在 其 中 。 如 果 扫 描 数 据 集 ,对 其 中 每 个 成 员 项 集 进行 计数 , 找 出 那些 计数 值 不 
小 于 min_sup 的 成 员 , 从 而 构成 Li( 即 频繁 & 项 集 )。 但 是 ,这 种 计算 中 的 成 员 数 量 可 能 
很 大 ,造成 计算 量 增 大 ,因此 算法 在 实际 操作 中 使 用 反 单调 性 原理 : 通过 判断 候选 集 的 所 
有 成 员 的 一 1 项 集 是 否 是 频繁 的 ,只 要 有 一 个 不 是 一 1 频繁 项 集 ,那么 该 成 员 不 可 能 成 
为 k 频繁 项 集 ,从 而 可 以 将 其 删除 ,最 后 剩 下 的 成 员 构 成 了 被 前 枝 的 候选 集 ;然后 再 采用 
数据 集 扫描 方式 对 其 中 的 成 员 进行 计数 ,确定 计数 值 不 小 于 min_sup 的 成 员 , 以 构成 频 
繁 项 集 集合 。 

例 4-4 生成 候选 集 方法 。 

为 了 便于 理解 相关 概念 ,这 里 给 出 一 个 简单 的 例子 ,让 读者 明白 候选 集 的 构成 过 程 。 
现 有 数据 集合 D, 已 经 找到 的 频繁 3 项 集 如 下 

L, = {abc , abd. acd. ace, bcd } 

为 找到 频繁 4 项 集 , 将 通过 连接 步 和 剪 枝 步 实现 ,过 程 如 下 : 

(1) 连接 步 : La * Ls 

由 频繁 3 项 集 {apc} 和 {abd} 得 到 自 连接 后 的 集合 {abcc } o 

同样 ,由 频繁 3 项 集 {acd} 和 {ace} 得 到 自 连接 后 的 集合 {acde}。 
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(2) 剪 枝 步 : 分 析 以 上 得 到 的 两 个 4 项 集 , 其 中 4 项 集 {acde} 的 子 集 {cde} 不 在 频繁 3 
项 集 Ls 中 ,显然 根据 反 单 调 性 原理 要 进行 剪 枝 , 因 此 候选 4 项 集 C, = {abed } ,再 扫描 数 
据 库 , 对 该 候选 集 进 行 计数 ,判断 其 计数 值 是 否 大 于 等 于 最 小 支持 度 计数 ,进而 找 出 频繁 
4 项 集 。 


4.3.2 Apriori 算法 描述 


Apriori 算法 的 功能 是 寻找 所 有 支持 度 不 小 于 min_sup 的 频繁 项 集 。 它 使 用 一 种 称 
作 逐 层 搜索 的 迭代 方法 。 在 后 续 的 每 次 遍历 中 ,利用 上 一 次 遍历 所 得 频繁 项 集 作 为 搜索 
项 集 ,产生 新 的 潜在 频繁 项 集 一 一 候选 项 集 , 然 后 对 候选 项 集 进 行 筛选 ,寻找 频繁 项 集 ,如 
此 循环 ,直到 不 能 再 找到 更 长 的 频繁 项 集 为 止 。 


算法 4-1 Apriori 算 法 伪 代 码 描 述 

输入 : 交易 数据 库 D; 最 小 支持 度 min_sup 计数 阔 值 
输出 : D 中 的 频繁 项 集 工 

Is. Lı = find_frequent_l-itemsets(D) ; 

A for(int k=2; Lı !=$;k++){ 

3. Ck =apriori_gen(L,; » min_sup); 

4 for each 事务 tED{ // 循 环 遍历 D 项 集 
5 C=subset(Ck,D; ”// 获 得 t 的 子 集 

6. for each 候选 cE C 

7 c. count ++; 

8 } 

9. 


Le ={c€ Cy |c. count>min_sup} 


11. return L= U; Lk; 
Procedure apriori_gen(L,., : frequent(k-1)-itemsets; min_sup: minimum support threshold) 
1 for each 项 集 l; E€ Le 
2 for each 项 集 l; E Lez 
3 (Ch OJ=b01) A, [2]=b (2) As A dCk-2]=l [k-27 A C [k-1]<1: [k-1]) then{ 
4 c=] col; // 连 接 步 ,产生 候选 
5. if has_infrequent_subset(c, Lı )then 
6 delete c; // 剪 枝 步 ,删除 子 集 不 是 频繁 集 的 候选 集 
7 else add c toC, ;} 
8 return Ck; 
Procedure has_infrequent_subset(c: candidate k-itemset; Ly, : frequent(k-1)-itemset) 
// 利 用 原 数 据 集 
1 for each (k-1)-subset s of c 
2. ifs Li then 
3. return true; 
4 


return false; 
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例 4-5 Apriori 算法 实例 分 析 。 该 数据 来 源 于 weka 购物 篮 测试 数据 ,选取 其 中 的 
10 条 购物 篮 事务 数据 D 进行 说 明 , 如 表 4-4 所 示 。 为 了 便于 理解 和 计算 ,用 I]1 12 等 编号 
表示 商品 。 这 里 最 小 支持 度 为 2, 即 min_sup 一 2。 


表 4-4 购物 篮 抽取 事务 数据 




















购物 篮 TID 商品 ID 列表 购物 复 TID 商品 ID 列表 
T001 12, 13, 111 T006 Nl, 19,15 
T002 12, 111 T007 17,15 
T003 I4, 16, 17, 110 T008 Il, 16,19 
T004 13, 18 T009 nl, no 
T005 12, 18, 110 T010 Il, 12, 13, 14, 18, 110 














在 第 一 次 扫描 整个 数据 库 后 ,可 以 确定 频繁 1 项 集 L1=={I1 2 13 M I5 I6 
17 I8 19 TO 111), 每 一 项 的 支持 度 都 大 于 等 于 最 小 支持 度 。 再 从 LL! 中 产生 2 项 集 
Ls={{I1 I2}{I1 I3)…({I 111}{I2 13}{I2 14})…{I2 I11)…{I10 111}}, 比较 每 
个 2 项 集 支持 度 与 最 小 支持 度 的 大 小 ,得 到 频繁 2 项 集 为 {{I1 9} {TL IT10}{I2 13} 
{I2 I8){I3 18}{14 I10}{I8 110)}。 其 他 频繁 项 集 以 此 方法 类 推 ,直到 再 也 不 能 寻找 
到 更 长 的 频繁 项 集 为 止 。 流 程 如 图 4-3 所 示 。 


4.3.3 改进 的 Apriori 算法 


从 以 上 对 Apriori 算法 的 介绍 可 以 看 出 来 ,其 两 大 缺点 是 可 能 产生 大 量 的 候选 集 , 以 
及 可 能 需要 重复 扫描 数据 库 多 次 。 针 对 Apriori 算法 的 不 足 , 人 们 提出 了 各 种 优化 方法 ， 
主要 包括 DHP(Direct Hashing and Pruning) 算 法 、Partition 算法 、Sample 算法 和 DIC 
(Dynamic Itemsets Counting) 算 法 等 。 由 于 Apriori 算法 开销 集中 在 从 数据 集中 提取 有 
效 信息 的 初始 阶段 ,因此 DHP 算法 采用 哈 希 表 对 2 项 集 进行 优化 ,在 & 频繁 项 集 产生 过 
程 中 ,将 可 能 的 k 十 1 候选 项 集散 列 到 哈 希 表 中 ,于 是 在 下 一 步 由 上 频繁 项 集 产生 k 十 1 项 
候选 集 时 ,使 用 前 一 阶段 建立 的 哈 希 表 过 滤 非 频繁 项 集 ,从 而 减少 需要 在 数据 库 扫 描 阶段 
进行 支持 度 计数 的 候选 项 集 数目 。 该 算法 还 有 一 个 特点 是 能 够 逐步 减少 数据 集 的 大 小 ， 
包括 其 中 事务 的 宽度 和 数目 。 考 虑 到 Apriori 算法 对 数据 集 的 扫描 次 数 和 扫描 效率 的 瓶 
颈 问题 ,Partition 算法 采用 了 分 治 的 思想 ,将 数据 集 在 逻辑 上 分 成 几 个 不 重 又 的 分 区 , 确 
定 分 区 大 小 的 原则 是 保证 每 个 分 区 能 够 被 放 入 内 存 , 算 法 的 核心 思想 是 全 局 频繁 项 集 至 
少 在 一 个 分 区 中 应 该 是 频繁 项 集 。 该 算法 总 共 只 需要 扫描 数据 集 两 次 ,第 一 次 是 产生 、 合 
并 各 个 分 区 各 自 的 频繁 项 集 , 第 二 次 是 验证 全 局 频繁 项 集 。 但 是 该 算法 受到 数据 集 不 平 
衡 情况 以 及 占用 内 存 不 好 估计 的 影响 ,在 使 用 上 受到 一 定 的 限制 。Sample 算法 使 用 了 抽 
样 的 思想 ,核心 是 抽取 事务 数据 形成 可 以 放 和 人 内存 大 小 的 数据 集 ,然后 对 此 抽样 数据 集 进 
行 频繁 项 集 的 挖掘 。 该 算法 虽然 减少 了 数据 集 的 大 小 ,降低 了 扫描 等 分 析 数 据 的 计算 量 ， 
但 是 容易 漏 掉 一 些 频 繁 项 集 ,对 结果 有 一 定 影 响 。DIC 算法 从 减少 扫描 次 数 入 手 , 将 原 数 
据 集 在 逻辑 上 进行 划分 ,循环 扫描 各 个 数据 划分 ,因此 主要 还 是 集中 在 优化 IO 开销 上 ， 
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候选 项 集 支持 度 计数 频数 项 集 支持 度 计数 
{11} 4 {11} 4 
{12} 4 {12} 4 
{13} 3 {13} 3 
扫描 数据 库 D， 对 un 7 ua 2 
每 个 候选 集 计数 {15} 2 产生 频繁 集 {15} 2 
"| 116) 2 {16} 2 
{17} 2 17} 2 
{18} 3 {18} 3 
{19} 2 {19} 2 
{110} 4 {110} 4 
{11} 2 {11} 2 
得 到 
候选 2 项 集 
1 
候选 项 集 支持 度 计数 候选 项 集 支持 度 计数 
{11, 19} 2 {11, 12} 1 
{11, 110} 2 {11, 13} 1 
{12, 13} 2 产生 频繁 集 {11, 14} 1 
{12, 18} 2 {11, 15} 1 
{13, 18} 2 
{14, 110} 2 {19, 111} 0 
{18, 110} 2 {110, 111} 0 
得 到 
候选 3 项 集 
候选 项 集 支持 度 计数 
{11, 15, 19} 1 
{11, 16, 19} 1 
{11, 12, 110} 1 
{12, 18, 110} 2 产生 频繁 集 l 频繁 项 集 支持 度 计数 
{13, 18, 110} 1 {12, 18, 110} 2 














4-3 Apriori 算法 实例 流程 














对 于 巨 量 候选 项 集 的 运算 和 开销 并 没有 优化 。 下 面 介 绍 一 个 高 效 的 基于 哈 希 思想 获取 频 


繁 集 的 DHP 算法 。 


1. DHP 算法 的 核心 思想 


DHP 算法 是 一 个 典型 的 基于 哈 希 思想 的 算法 。 哈 希 思 想 实质 就 是 通过 某 种 处 理 方 
式 , 尽 量 将 要 处 理 的 所 有 数据 放 入 内存 :以 提高 处 理 效率 。 其 实 Apriori 算法 如 果 在 计算 
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的 过 程 中 内 存 能 够 满足 算法 中 数据 处 理 的 需求 ,是 能 够 很 好 地 执行 的 ,但 是 当 频 繁 项 集 的 
数量 比较 大 以 至 于 内 存 存 放 不 了 时 ,对 这 些 项 集 的 频繁 计数 将 会 使 得 内 存 中 页 面 频繁 地 
换 入 换 出 ,这 在 操作 系统 中 称 为 内 存 拌 动 ,这 种 现象 会 大 大 降低 执行 效率 。 尤 其 是 针对 候 
BE 2 项 集 C: ,Cs 中 包含 的 候选 项 集 大 小 通常 都 非常 大 ,因此 许多 优化 算法 针对 这 一 问题 
提出 了 针对 减少 Co 大 小 的 改进 策略 。 通 常 在 计算 候选 项 集 时 特别 是 在 计算 候选 项 对 时 
需要 消耗 大 量 内 存 , 针 对 Ce 候选 项 对 过 大 的 问题 ,一 些 算法 被 提出 以 减少 C: 的 大 小 ， 
DHP 算法 就 是 其 中 之 一 。 

DHP 算法 的 核心 思想 是 : 在 获取 频繁 项 集 的 第 一 步 里 仅 使 用 不 到 10% 的 内 存 空 间 , 因 
为 只 需要 两 个 表 ,一 个 用 来 保存 每 个 项 的 名 字 到 一 个 整数 的 映射 ,随后 的 计算 中 用 这 些 整数 
值 代表 项 , 另 一 个 是 定义 一 个 数组 来 对 这 些 整数 代表 的 项 进行 计数 ,因此 会 有 很 多 内 存 空 间 
ZA. DHP 算法 充分 使 用 这 些 空闲 的 内 存 来 另外 定义 了 一 个 整数 数组 ,将 这 个 数组 看 作 一 
个 哈 希 表 , 表 的 每 个 桶 中 装 的 是 代表 各 个 项 的 整数 值 ,在 扫描 计数 获得 每 个 项 出 现 的 次 数 
时 ,项 对 同时 也 被 散 列 到 这 些 桶 中 ,由 此 推出 各 个 2 项 集 是 否 为 2 频繁 项 集 。 归 纳 起 来 ， 
DHP 算法 主要 有 两 个 优化 思想 , 即 定义 哈 希 表 和 用 位 图 (bitmap) 方 式 对 其 进行 存储 。 

定义 4-13 ”生成 哈 希 表 。 生 成 一 个 哈 希 表 数 组 , 当 扫 描 数 据 集中 的 每 个 事务 时 ,在 
由 Cy 候选 集 产 生 频繁 项 集 L 时 ,可 以 对 每 个 事务 同时 产生 所 有 的 2 项 集 ,通过 相应 的 散 
列 函 数 将 它们 散 列 到 表 中 不 同 的 桶 中 ,并 随 之 增加 对 应 的 桶 计数 (图 4-5)。 因 此 每 个 桶 
都 对 应 一 个 数字 ,这 个 数字 表达 了 桶 中 2 项 集 的 数目 。 显 然 如 果 桶 中 数字 大 于 支持 度 阅 
值 ;, 这 个 桶 被 称 为 频繁 柄 。 对 于 频繁 桶 ,不 能 确定 其 包含 的 所 有 2 项 集 是 否 为 频繁 的 ， 
但 是 有 可 能 是 的 程度 较 高 。 相 反 , 对 于 阔 值 低 于 * 的 桶 ,可 以 肯定 其 包含 的 2 项 集 肯定 不 
是 频繁 的 ,通过 如 此 过 滤 可 以 大 大 减少 候选 2 项 集 的 数目 。 

例 4-6 候选 2 项 集散 列表 的 产生 。 

在 计算 2 项 集 数据 量 比较 大 时 ,需要 花费 的 资源 就 非常 多 。 为 提高 性 能 引入 了 哈 希 
表 的 概念 , 它 的 计算 过 程 如 下 ,首先 计算 哈 希 表 长 度 , 得 到 哈 希 桶 大 小 ,建立 哈 希 桶 。 扫 描 
数据 库 的 每 一 个 事务 ,找到 每 一 个 事务 所 包含 的 全 部 2 项 集 ,通过 散 列 函数 计算 每 一 个 候 
选 2 项 集 的 桶 地 址 。 根 据 桶 地 址 压 入 相应 的 哈 希 桶 中 ,使 相应 的 桶 计数 加 1, 扫描 整个 数 
据 库 ,把 所 有 候选 信息 都 压 和 人 哈 希 桶 中 , 桶 计数 大 于 或 等 于 最 小 支持 度 的 候选 2 项 集 就 是 
可 能 的 频繁 2 项 集 , 下 面 以 实例 说 明 。 

如 图 4-4 所 示 ,频繁 1 ME Li 一 {I1,I2,I3,I4} ,|Li| 二 4, 散 列表 长 度 |Li| * (|Li| 一 
1)/2=6.4 order(11) =1.order(12) =2,order(13) =3.order(14) =4, 

扫描 数据 库 里 的 每 一 个 事务 ,事务 {I1,13.15} 中 包含 了 { 卫 ,13) ,计算 (11,13) 二 2, 则 
{I,I3} 的 哈 希 桶 地 址 为 2, 把 地 址 为 2 的 桶 计数 加 1。 计 算得 到 其 他 的 候选 2 项 集 桶 地 址 
如 图 4-5 所 示 。 事 务 {I2,I4,I6} 中 包含 了 {I2.I4) ,计算 (2,14) 二 5, 则 {12,14} 的 哈 希 地 
址 为 5, 把 地 址 为 5 的 桶 计数 加 1。 同 样 事务 {了 1 ,12,13.14) 包 含 了 {{I11,12),{I1,13),{11， 
14},{12,13), {12,14}, {13,14}}, 则 相应 2 项 集 的 桶 计数 加 1。 事 务 { 了 1,12,14} 包 含 了 
{{ 卫 ,I2},{I1,14),{I2,14)), 则 相应 2 项 集 的 桶 计数 加 1。 事 务 {11,14,18) 包 含 了 {11， 
14), 则 相应 的 桶 计数 加 1。 最 后 通过 桶 计数 和 最 小 支持 度 比较 ,得 到 频繁 2 项 集 {{IT， 
I2}, {11,13}, {11,14}, {12,14}}。 
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1 11, 13, 15 L Sup G Sup 
2 12, 14, 16 1 4 11,12 2 
3 11, 12, 13, 14 nD 2 3 连接 11,13 2 
4 11,12.14 | WE 3 2 HHD | 4 3 
5 11, 14, 18 14 4 12,13 1 
D 12,14 3 
B 4 1 
G Sup 
11,12 2 
za Ssp | ED a 连接 11,13 2 
1, 12,14 2 pm TH 3 
12,14 3 
图 4-4 Apriori 算法 流程 
1,12 1,13 11,14 12,13 1,14 13,14 
2 a -A ea é | -4 桶 计数 
1 2 3 4 5 6 桶 地 址 


图 4-5 生成 的 哈 希 桶 示意 图 


定义 4-14 ÆR bitmap R. Æ DHP 算法 中 ,为 了 方便 地 获得 哪些 2 项 集 是 频繁 的 ， 
哪些 不 是 ,通常 哈 希 表 应 该 常 驻 内 存 , 如 果 数 据 集中 包含 的 项 太 多 ,也 就 是 大 数据 的 情况 
下 , 哈 希 表 也 会 过 大 。DHP 算法 将 哈 希 表 压 缩 为 bitmap, 位 图 中 每 一 位 代表 一 个 桶 。 若 
桶 为 频繁 桶 , 则 位 置 为 1 ,否则 置 为 0。Bitmap 的 使 用 就 可 以 大 大 减少 哈 希 表 所 占用 的 内 


存 空间 ,从 而 保证 DHP 算法 能 直接 在 内 存 中 较 好 地 处 理 这 个 数据 集 而 不 会 耗 尽 内 存 。 


2. DHP 算法 的 伪 代 码 描 述 


DHP 算法 中 使 用 哈 希 表 的 好 处 并 不 是 绝对 最 优 的 , 它 还 取决 于 数据 大 小 和 空闲 内 存 
大 小 。 在 最 坏 的 情形 下 ,所 有 的 桶 都 是 频繁 的 ,那么 DHP 计算 的 项 对 与 Apriori 算法 是 
一 样 的 。 然 而 ,在 通常 实际 使 用 中 ,大 多 数 的 桶 都 是 非 频繁 的 。 这 种 情况 下 ,DHP 算法 能 
够 大 大 缓解 Apriori 算法 的 瓶颈 问题 。 下 面 详细 给 出 该 算法 主要 框架 的 伪 代 码 ,其 中 的 


子 函 数 可 以 分 别 参考 文献 [1] 和 [9]。 


算法 42 DHP 算法 的 伪 代 码 描述 

/* Part 1*/ 

Lo s= 最 小 支持 度 

2. ”设置 hash 表 H: 对 应 的 所 有 hash 桶 均 为 0 ”// 哈 希 表 初 始 化 
forall 事务 tED do begin 
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4 对 出 现在 哈 希 树 中 的 1- 项 集 进行 插入 和 计数 ; 
5. forall 2- 项 集 x of t do 

6. Hz [h; (x) J++; 

7. end 

8 Lı ={cle. count> 一 sc 是 哈 希 树 的 一 个 叶子 节点 } 
/ * Part 2* / 

1. k=2; 

2. D, =D;/ * 项 集 的 事务 数据 * / 

3. while(| {x| Hi[x]>=s} |>—=LARGE){ 

4 /* 创建 哈 希 表 * / 

5 gen_candidate(Ley +» Hk, Ck); 

6 设置 Hi+1 所 有 的 桶 为 0; 

7 Dy = $3 

8 forall 事务 tE Di dobegin 

9 count_support(t,C, »k,tl);/ * tl&t * / 


10. if(|t1|>k) then do begin 

it. make_hash t(tl, Hy sk, Hy+1 ,t2); 
12: if(|t2|>k) then Di 一 Du U {t2}; 
13. end 

14. end 

15. Lk = {cE C |c. count> =s}; 

16. k++; 

U7: } 

/* Part3 */ 


1. gen_candidate( Ly; » Hy »Cy)s 
2 while(|C, | >0) { 

3 Di = $3 

4 forall 事务 tE Di dobegin 

5 count_support(t,C,»k-tl);/* thet */ 
6. if(|t1 | >k) then =D U {tl} 
ie end 

8 L,={c€C, |c. count>=s}; 
9 if( | Dx+ı | =0)then break; 

10. Ck+ı =apriori_gen(L,); 

11. k++; 

12. } 


44 FP-Growth 算 法 


不 同 于 上 述 两 个 算法 都 需要 首先 产生 候选 集 ,然后 进行 频繁 项 集 验证 的 方式 ,FP- 
Growth 算法 采用 了 模式 段 增长 的 方式 分 而 治之 地 构建 频繁 项 集 。 当 数据 集 比较 稠密 
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时 ,该 算法 使 用 扩展 的 前 级 树 FP-Tree(Frequent-Pattern Tree) ,将 全 部 的 数据 集 压 缩 入 
主 存 , 由 此 采用 分 治 策略 将 对 整体 数据 集 的 分 析 转 化 为 对 各 个 条 件 模式 库 分析 的 子 任务 ， 
显著 减 小 了 搜索 空间 。 由 于 FP-Growth 算法 降低 了 1/0 开销 ,减少 了 同一 时 刻 内 存 中 存 
储 的 频繁 项 集 数目 ,因而 大 大 提高 了 算法 运行 性 能 。 但 是 对 于 稀 玻 的 大 型 数据 集 ,该 算法 
仍然 不 能 保证 一 次 装 人 内 存 。 由 于 实际 上 FP-Tree 对 数据 集 的 压缩 率 比较 低 ,在 这 种 情 
况 下 FP-Growth 算法 效率 依旧 会 严重 降低 。 

本 节 主 要 介绍 关联 规则 的 FP-Growth 算法 ,针对 比较 稠密 的 数据 集 ,该 算法 具有 很 
好 的 计算 效果 ,能 够 有 效 地 解决 大 量 LO 问题 。 在 4. 4. 1 节 中 详细 地 介绍 FP-Growth 算 
法 的 核心 思想 ,该 算法 在 4. 4. 2 节 中 以 伪 代 码 表示 形式 进行 了 详细 描述 。 


4.4.1 FP-Growth 算法 的 核心 思想 


首先 给 出 该 算法 中 的 几 个 术语 的 定义 。 

定义 4-15 频繁 模式 树 (frequent pattern tree) 。 简 称 为 FP-tree, 它 是 指 一 棵 将 代表 
频繁 项 集 的 数据 库 压 缩 之 后 形成 的 树 ,该 树 仍 保留 项 集 的 关联 信息 。 其 结构 满足 下 列 条 
件 : 由 一 个 根 节点 ( 值 为 null) 、 项 前 级 子 树 ( 作 为 子女 ) 和 一 个 频繁 项 头 表 组 成 。 

定义 4-16 ”项 前 缀 子 树 。 该 子 树 的 每 个 节点 包括 3 个 域 : item_name、count 和 node 
_link, 其 中 ,item_name 记录 节点 表示 的 项 的 标识 ;count 记录 到 达 该 节点 的 子路 径 的 事 
务 数 ;node_link 用 于 连接 树 中 相同 标识 的 下 一 个 节点 ,如 果 不 存在 相同 标识 下 一 个 节点 ， 
则 值 为 null。 

EX 4-17 ”频繁 项 头 表 。 本 表 中 的 每 个 表 项 包括 一 个 频繁 项 的 标识 (item_name) 和 
一 个 指向 树 中 具有 该 频繁 项 标识 的 第 一 个 频繁 项 节点 的 指针 (head of node_link)。 

定义 4-18 条 件数 据 库 (conditional data base)。 又 称 为 条 件 模 式 库 , 一 种 特殊 类 型 
的 投影 数据 库 , 即 把 上 述 频繁 模式 树 进 行 压缩 后 的 数据 库 就 是 条 件 模式 库 。 

定义 4-19 条 件 模式 基 (conditional pattern base) 。 在 FP-tree 中 ,每 个 任意 的 后 组 
模式 可 以 形成 各 自 的 不 同 前 级 子路 径 , 所 有 这 些 路 径 组 成 了 该 后 级 的 条 件 模 式 基 , 即 该 后 
级 的 子 数据 库 。 

定义 4-20 条 件 模 式 树 (conditional pattern tree)。 由 某 个 后 级 的 条 件 模 式 基 所 构建 
的 FP-tree 称 为 该 后 级 的 条 件 模 式 树 。 

基于 FP-tree 挖掘 频繁 项 集 , 需 要 了 解 FP-tree 的 一 些 重要 性 质 。 

性 质 4-1 节点 链 性 质 。 对 于 任何 频繁 项 item, 从 FP-tree 的 项 头 表 对 应 item 项 的 
头 指针 (head of node_link) 开 始 ,通过 遍历 item 的 节点 链 (node_link) 可 以 挖掘 出 所 有 包 
含 item 的 频繁 模式 。 

TER 4-2 前缀 路 径 性 质 。 为 了 计算 以 item 为 后 级 的 频繁 模式 ,仅仅 需要 在 FP-tree 
中 计算 item 节点 的 前 级 路径 ,所 有 这 些 前 级 路径 的 频繁 度 (计数 ) 为 该 路 径 上 该 后 级 item 
的 频繁 度 (计数 )。 

性 质 4-3 ”条件 模式 树 构 造 性 质 。 为 了 构造 item 的 条 件 模式 树 ,首先 累加 其 每 个 条 
件 模 式 基 上 所 有 其 他 item 的 频繁 度 ( 计 数 ). 过 滤 掉 那些 低 于 最 小 支持 度 阅 值 的 其 他 
item, 用 剩 下 的 item 和 该 后 缀 一 起 构建 FP-tree。 
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4.4.2 FP-Growth 算法 描述 


FP-Growth 算法 第 一 遍 扫 描 数 据 集 时 , 找 出 频繁 1 项 集 La ,对 它们 按 降序 排序 ;第 二 
遍 扫 描 数据 集 时 ,对 每 个 事务 过 滤 掉 不 频繁 的 项 集 ,将 剩 下 的 频繁 项 集 按 1 项 集 Li 中 的 
顺序 排序 ,把 每 个 事务 的 频繁 1 项 集 插入 到 FP-tree 中 ,相同 前 级 的 路 径 可 以 共用 ,同时 
增加 一 个 项 头 表 , 把 FP-tree 中 的 相同 item 连接 起 来 ,也 是 降序 排序 。 在 得 到 的 FP-tree 
基础 上 进行 频繁 项 集 挖掘 的 过 程 如 下 : 

(1) 从 项 头 表 的 最 下 面 的 item 开始 ,构造 每 个 item 的 条 件 模式 基 。 顺 着 项 头 表 中 每 
个 item 的 链表 ,分 别 找 出 所 有 包含 该 item 的 前 级 路 径 , 这 些 前 级 路 径 就 是 该 item 的 条 件 
模式 基 。 所 有 这 些 条 件 模 式 基 的 频繁 度 ( 计 数 ) 满 足 性 质 4-2。 

(2) 通过 采用 性 质 4-3 构造 FP-tree, 递 归 地 挖掘 每 个 条 件 FP-tree, 累 加 后 级 频繁 项 
集 ,直到 找到 的 FP-tree 只 有 一 条 路 径 ( 或 只 有 一 个 分 支 ) ,进一步 通过 组 合 的 方式 构建 该 
分 支 中 的 所 有 频繁 项 集 ,或 者 当 FP-tree 为 空 时 结束 递归 。 


算法 4-3 FP-Growth 算法 伪 代 码 描 述 : 

输入 : 

D: 事务 数据 库 

min_sup: 最 小 支持 度 阔 值 

输出 : 频繁 模式 的 完全 集 

Procedurel: / * 构造 FP 树 */ 

1. 一 次 扫描 事务 数据 库 D, 收 集 频 繁 项 集 F 和 它们 的 支持 度 计数 ,对 下 中 的 各 项 按 支持 度 计数 降 
序 排列 ,结果 构成 频繁 项 列表 L 

2. 创建 FP 树 的 根 节点 ,以 "null" 标 记 。 对 于 事务 数据 库 D 中 的 每 一 个 事务 ,分别 执行 以 下 步 又 : 
选择 每 个 事务 中 的 频繁 项 ,并 按照 L 列表 中 的 次 序 排序 。 若 经 过 排序 后 的 频繁 项 列表 为 [p|Pj], 其 
中 p 为 第 一 个 元 素 ,P 为 剩余 元 素 的 列表 ,调用 子 函 数 insert_tree([p|P],T), 即 创建 FP-tree。 该 
函数 的 执行 过 程 如 下 : 若 根 节点 T 有 子女 n 使 得 n. item-name=p. item-name, 则 相应 子女 节点 n 
的 计数 加 1 ,和 否则 创建 一 新 节点 n, 链 接 到 根 节点 T, 并 将 其 计数 置 为 1, 同 时 将 该 节点 链 入 项 头 表 
中 具有 相同 item-name 的 节点 上 ,递归 调用 insertrtree, 直 至 P 为 空 。 

Procedure 2; Procedure FP-growth(Tree,a)/ * 对 于 FP-Growth 的 调用 如 下 : * / 

if Tree 包含 单个 路 径 P then 

for 路 径 P 中 节点 的 每 个 组 合 ( 记 作 p) 

产生 模式 BUa, 其 支持 度 计 数 sup_count 等 于 B 中 节点 的 最 小 支持 度 计数 ; 

else for Tree 的 项 头 表 中 每 个 ai{ 

产生 一 个 模式 B 二 aiUa, 其 支持 度 计 数 sup_count=ai * sup_count; 

构造 B 的 条 件 模式 基 , 然 后 构造 B 的 条 件 FP 树 Treep; 

if TreeBA $then 

调用 FP-Growth(Treeg.8) ; 

} 


例 4-7 FP-Growth 算法 的 实现 过 程 。 
数据 如 表 4-5 所 示 ,假设 最 小 支持 度 为 3。 


吓人 


ARBRBAM A 


R45 购物 篮 抽取 事务 数据 














购物 篮 TID 商品 ID 列表 购物 篮 TID 商品 ID 列表 
T001 16,11,13,14,17,19,113,116 T004 12,13,111,118,116 
T002 1 ,12,13,16,112, 113,115 T005 11,16,13,15,112,116, 113,114 
T003 12,16 18,110,115 ,117 

















根据 以 上 数据 ,生成 频繁 1 TA IER EAT HEE 448) La = (16: 4,13: 4, 
Tl: 3,12; 3,113; 3,116: 3), EAR AY StS BA Be 4-6 所 示 ,生成 项 头 表 ( 如 表 4-7 所 
IR) Al FP-tree( 如 图 4-6 所 示 ) 。 


R46 压缩 后 的 购物 篮 事务 数据 





























购物 篮 TID 商品 ID 列表 购物 复 TID 商品 ID 列表 
T001 16,13,11,113,116 T004 13, 12,116 
T002 16,13,11 ,12,113 T005 16,13, 11, 113, 116 
T003 16,12 
表 4-7 事务 数据 项 头 表 
项 ID 支持 度 计数 节点 链 项 ID 支持 度 计数 节点 链 
16 4 I6: 4 2 3 I2: 3 
13 4 1B; 3 113 3 13; 2 
n 4 Nl: 3 116 3 I6: 2 





























4-6 事务 数据 项 头 表 对 应 的 FP-tree 
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FP 树 的 挖掘 过 程 如 下 : 由 项 头 表 的 最 后 一 项 开始 ,对 每 一 个 长 度 为 1 的 频繁 集 构造 
它 的 条 件 模式 基 ( 由 FP-tree 中 与 该 后 缀 模式 一 起 出 现 的 前 级 路 径 集 组 成 ) ,然后 ,构造 它 
的 条 件 FP-tree, 并 递归 地 在 该 树 上 进行 挖掘 ,模式 增长 通过 后 级 模式 与 条 件 FP-tree 产 
生 的 频繁 模式 连接 实现 。 得 到 条 件 模式 如 表 4-8 所 示 。 








表 4-8 条 件 模 式 表 
项 ID 条 件 模式 基 条 件 FP-tree 产生 的 频繁 模式 
ne {{16,13,11,113: 3},{13,12: 1}} <I3; 3> {116: 4},{116,13: 4} 





{113: 3),{113,16: 3}, {113,13: 3}, 
113 {{16,13,11: 2},{16,13,11,12: 1}} | <16,13,11: 3> {113, I1: 3},{16,13,13: 3}, 
{11,113,13: 3),{16,113,11: 3} 





12 {{16,13,11: 1},{16: 1},{13: 1}} {I2: 3} 


{11: 3}, {16,11: 3},{13,11: 3}, 
{11,13,16: 3} 


13 {I6: 4} {16: 4} 





Il {{16,13: 3}} <16,13: 3> 














对 于 116, 它 的 两 个 前 级 形成 条 件 模 式 基 {{16,13,I11,113: 3}, (13,12: 1})} ,产生 一 个 
单 节点 的 条 件 FP 树 二 13: 3 二 ,并 导出 一 个 频繁 模式 {116 ,13: 3)。 
同 理 , 可 得 到 由 FP-tree 产生 的 频繁 模式 ,项 头 表 如 表 4-9 所 示 ,FP-tree 如 图 4-7 
所 示 。 
表 4-9 事务 数据 头 表 
项 ID 支持 度 计数 节点 链 项 ID 支持 度 计数 节点 链 
116 3 116: 3 13 3 13: 3 





针对 FP-Growth 算法 的 缺点 ,人 们 提出 了 H-mine 算法 .FP-Growth * 算法 .CT-pro 
算法 .OP 算法 等 。 它 们 主要 在 数据 结构 方面 进行 了 
优化 ,以 便 提高 内 存 访问 的 效率 。H-mine 算法 从 减 Co > 
小 大 数据 集 的 内 存 消耗 入手, 构建 了 基于 数组 的 H- 


struct 结构 ,并 采用 分 片 思想 ,保证 每 一 片 都 能 够 在 Qis 
使 用 时 装 和 内存。FP-Growth * 算法 使 用 局 部 性 较 
好 的 数组 存储 FP_Growth 算法 中 产生 的 条 件 模式 库 E 


的 支持 度 计 数 , 在 此 基础 上 ,构建 条 件 模式 树 时 , 依 图 4-7 事务 数据 头 表 对 应 的 FP-tree 
靠 该 数组 可 以 只 扫描 一 遍 原来 的 频繁 模式 树 , 明 显 

提高 了 执行 效率 ,该 算法 可 以 较 好 地 运用 在 稀 朴 数据 集 上 。CT-pro 算法 使 用 了 压缩 的 
FP-tree, 其 节点 数 是 原来 FP-tree 树 的 一 半 , 极 大 地 节省 了 内 存 空间 ,提高 了 树 的 构建 和 
遍历 速度 。OP 算法 综合 了 FP-Growth 算法 和 H-mine 算法 的 优点 ,用 树 投影 的 方法 处 
理 稠 密 数 据 集 , 用 数组 结构 处 理 稀 玻 数据 集 , 而 且 能 够 根据 数据 集 的 动态 特征 动态 地 选取 
相关 策略 ,在 效率 和 空间 上 取得 了 较 好 的 权衡 。 
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45 面向 大 数据 的 有 效 数 据 结 构 


在 全 球 大 数据 浪潮 中 ,对 大 数据 进行 智能 分 析 和 处 理 已 经 成 为 政府 ,企业 等 机 构 关注 
的 焦点 。 数 据 分 析 方 法 所 面 对 的 数据 集 已 经 是 海量 数据 ,在 算法 中 使 用 更 优 的 数据 结构 ， 
能 够 较 好 地 利用 内 存 , 在 节约 系统 开销 的 同时 ,提升 算法 的 计算 性 能 , 接 下 来 将 讨论 关联 
分 析 方 法 涉及 的 数据 结构 的 特点 以 及 相应 的 改进 方式 。 

在 许多 关联 分 析 算 法 中 ,主要 的 时 间 开销 集中 在 将 数据 集中 的 事务 从 磁盘 读 入 内 存 ， 
进行 频繁 项 集 统计 的 这 个 过 程 上 ,因此 当 要 处 理 的 数据 集 文 件 太 大 以 至 于 无 法 一 次 存放 
在 内 存 中 时 ,会 出 现存 放 数据 的 页 面 不 断 发 生 从 内 存 到 外 存 的 换 和 人 换 出 操作 ,引起 内 存 抖 
动 现象 ,造成 计算 效率 的 急剧 下 降 。 另 外 当 对 数据 集 进 行 一 遍 扫描 之 后 ,相继 获得 的 各 个 
频繁 项 集 都 必须 在 内 存 中 维护 它们 相对 应 的 不 同 计数 值 , 如 果 没 有 足够 内 存 来 存放 这 些 
数值 ,那么 在 之 后 的 计算 中 随便 对 其 中 的 一 个 加 1, 都 有 可 能 发 生 一 次 页 面 的 换 和 人 换 出 操 
作 , 内 存 抖动 将 非常 严重 ,造成 算法 运行 速度 可 能 会 比 直接 从 内 存 中 找到 这 些 数值 慢 好 几 
个 数量 级 ,所 以 应 该 尽量 保证 计算 过 程 只 发 生 在 内 存 中 已 有 的 对 象 之 间 。 

本 节 主 要 介绍 大 数据 集 在 内 存 中 的 处 理 方法 ,针对 大 数据 集 在 处 理 时 的 内 存 溢出 或 
者 内 存 拌 动 的 问题 ,介绍 了 可 供 参 考 的 几 种 有 效 数据 结构 。 


1. 哈 希 结构 


使 用 哈 希 结构 ,可 以 在 生成 候选 集 时 过 滤 掉 更 多 的 项 集 , 所 以 每 一 次 生成 的 候选 集 都 
更 加 逼近 频繁 集 , 这 种 技术 对 于 2 项 候选 集 的 剪 枝 尤其 有 效 。 该 技术 首先 扫描 数据 集 , 对 
所 有 的 1 项 候选 集 进行 计数 ,删除 小 于 最 小 支持 计数 的 1 项 集 ,与 此 同时 ,构建 哈 希 表 , 在 
生成 频繁 1 项 集 扫描 的 过 程 中 ,同时 为 每 个 事务 产生 所 有 2 项 集 ,并 分 别 为 这 些 2 项 集 计 
算 哈 希 地 址 存放 到 相应 的 散 列 桶 中 ,每 存放 一 次 ,该 桶 计数 值 加 1, 一 次 数据 集 扫描 结束 
后 ,2 项 候选 集中 只 保留 那些 对 应 散 列 桶 计数 值 大 于 等 于 最 小 支持 度 阔 值 的 2 项 集 。 同 
时 为 保证 该 哈 希 表 能 够 一 次 读 和 内存 ,将 其 转换 成 位 图 ,该 位 图 的 每 一 位 对 应 一 个 散 列 
桶 ,如 果 桶 的 计数 值 大 于 等 于 最 小 支持 度 阔 值 , 则 该 位 取 值 为 1 ,否则 为 0。 


2. = AE 


任何 对 象 要 完成 计算 都 必须 首先 调 入 内存 ,不 在 内 存 中 的 任何 对 象 都 不 能 进行 计算 ， 
因此 数据 结构 的 定义 应 该 尽量 将 更 多 的 对 象 一 次 调 入 内 存 。 由 于 关联 分 析 中 ,往往 2 项 
集 数目 非常 庞大 ,因此 在 将 所 有 的 频繁 项 集 都 编码 成 整数 后 ,通过 一 遍 扫 描 获 取 所 有 2 项 
集 的 支持 计数 ,进而 可 以 将 这 个 庞大 的 结果 使 用 二 维 数组 进行 存储 ,显然 这 个 二 维 数组 是 
一 个 对 称 和 矩阵 ,对 这 类 特殊 矩阵 的 存储 可 以 利用 对 称 和 矩阵 压缩 存储 的 方法 来 存放 计数 结 
果 , 即 使 用 一 个 一 维 的 数组 只 存放 这 个 矩阵 中 的 上 三 角 或 下 三 角 元 素 (不 包含 矩阵 对 角 线 
上 的 元 素 )。 这 样 对 于 一 个 nXn 的 二 维和 矩阵 OR a En? 个 存储 空间 存放 所 有 2 项 集 的 
计数 值 ,现在 只 需要 n(n 一 1)/2 的 存储 空间 。 
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3. 三 元 组 


另 一 种 可 以 用 来 减少 2 项 集 支 持 计数 存放 空间 的 方法 是 稀 疏 矩阵 压缩 存储 中 的 三 元 
组 方法 , 即 定义 一 个 三 元 组 , 形 如 (i,j,c) ,其 中 i 和 j 分 别 对 应 于 两 个 项 目 ,c 对 应 于 扫描 
后 获得 的 这 两 个 项 目 同时 出 现在 交易 中 的 支持 计数 。 由 于 在 实际 交易 中 往往 会 有 大 量 的 
2 项 集 支 持 计 数值 为 0, 所 以 对 于 这 样 的 稀 朴 矩阵 只 要 存储 那些 非 0 元 即 可 ,也 就 是 可 以 
采用 三 元 组 结构 只 存储 支持 计数 非 0 的 2 项 集 , 即 只 有 oO 的 才 需 要 分 配 空间 去 存储 。 
具体 操作 可 以 采用 类 似 喻 希 表 的 数据 结构 ,其 中 i,j 是 搜索 键 值 ,这 样 就 能 确定 对 于 给 定 
的 i,j 是 否 存 在 对 应 的 三 元 组 ,如 果 是 则 快速 定位 。 

如 果 所 有 可 能 出 现 的 n 个 项 对 中 至 少 有 1/3 共同 出 现在 交易 行为 中 ,采用 对 称 矩 阵 
压缩 存储 方式 更 优 。 而 如 果 出 现 的 比例 显著 小 于 1/3, 那 么 使 用 稀 朴 矩阵 的 三 元 组 压缩 
存储 方式 更 好 。 





46 关联 规则 有 效 性 的 评估 方法 


支持 度 和 置信 度 是 评价 关联 规则 的 两 个 常用 的 指标 ,通常 一 条 通过 数据 分 析 得 到 的 
关联 规则 ,只 要 它 的 支持 度 和 置信 度 大 于 用 户 所 设 定 的 最 小 支持 度 和 最 小 置信 度 ,那么 它 
就 是 强 关 联 规则 。 但 是 是 否 所 有 的 强 关 联 规则 都 是 可 用 的 呢 ? 试想 一 想 , 如 果 一 条 规则 
的 后 件 本 来 的 支持 度 就 非常 高 ,那么 由 此 计算 出 来 的 该 规则 的 置信 和 度 并 不 能 说 明 这 条 规 
则 的 可 用 性 。 

例 4-8 在 一 个 交易 数据 库 中 共有 10 000 条 交易 记录 ,其 中 购买 电子 游戏 的 有 6000 
人 ,购买 VCD 的 人 有 7500 人 ,而 同时 购买 这 二 者 的 人 数 是 4000 人 ,假定 最 小 支持 度 阔 值 
为 30% «tne |) EEI BE BEA 60% ,对 于 一 条 如 下 的 关联 规则 : 

电子 游戏 VCD[ support 二 40% .confidence=66 % | 
从 表面 上 看 ,这 条 规则 是 一 条 满足 条 件 的 强 关联 规则 ,但 是 仔细 分 析 会 发 现 ,该 规则 的 后 
件 VCD 本 身 的 支持 度 已 经 高 达 75% ,必然 会 拉 升 规则 的 置信 度 值 , 使 它 超过 最 小 置信 和 度 
净值 。 因 此 这 并 不 能 说 明 该 规则 的 前 件 销 售 必然 带 来 后 件 交易 的 增加 ,相反 会 发 现 ， 
VCD 原来 的 交易 支持 度 已 经 达到 了 75% ,而 电子 游戏 的 出 现 反 而 使 其 支持 度 只 有 66%. 
明显 地 说 明了 二 者 之 间 的 一 种 负 关系 。 

总 之 ,判断 一 条 强 关 联 规则 是 否 可 用 且 有 趣 ,可 以 采用 两 种 评价 方法 ,一 种 是 客观 
评价 方法 , 另 一 种 是 主观 评价 方法 。 客 观 评价 方法 应 用 统计 学 原理 ,用 定量 的 数值 来 
判定 规则 的 有 趣 性 ,从 而 避免 人 为 的 主观 腾 断 ,可 见 客观 性 评价 更 可 靠 , 更 有 说 服 力 。 
但 是 客观 评价 完全 基于 数据 而 没有 考虑 到 规则 之 间 的 联系 和 用 户 的 感觉 ,所 以 目前 在 
一 些 关 联 规则 评价 方法 的 研究 中 会 增加 一 些 主观 度量 方法 或 约束 限制 。 比 如 ,在 强 关 
联 规则 中 ,前 件 或 者 后 件 中 部 分 项 目 可 能 对 未 来 的 决策 和 分 析 产 生 一 定 的 影响 ,起 到 
直接 或 间接 的 作用 ,这 种 作用 表现 在 两 个 方面 : 四 它们 在 整个 规则 中 都 表现 出 很 重要 
的 影响 ,常常 引发 需求 者 的 关注 ; @ 具 有 一 定 的 时 效 性 ,它们 的 出 现 和 现实 情况 联系 较 
为 紧密 。 以 上 两 种 情况 在 确定 关联 规则 的 有 趣 性 方面 将 会 因 需 求 而 异 。 针 对 第 一 种 
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情况 ,相关 领域 的 专家 通常 会 给 出 相应 的 感 兴趣 度 值 , 设 置 值 域 在 0 到 1 之 间 ,0 为 无 
关 紧 要 的 ,1 为 最 重要 的 。 针 对 第 二 种 情况 ,会 根据 当时 系统 用 户 的 感 兴趣 程度 来 赋 
值 ,因而 表现 出 一 定 的 时 效 性 , 值 域 同样 为 0 到 1, 最 后 评判 该 规则 是 否 有 用 时 ,会 通过 
衡量 指标 取 二 者 的 平均 值 来 确定 。 

本 节 主 要 介绍 关于 关联 规则 有 效 性 的 几 种 评估 方法 。 在 4. 6. 1 节 中 详细 介绍 了 关联 
规则 兴趣 度 的 评估 ,进一步 确认 强 关联 规 则 的 有 效 性 。 针 对 关联 规则 的 最 小 支持 度 和 置 
信 度 无 法 完全 过 滤 无 趣 关 联 的 问题 ,4. 6. 2 节 中 通过 相关 度 的 介绍 对 此 类 问题 作 了 详细 
讲解 。 最 后 在 4. 6. 3 节 讲 解 了 关于 关联 规则 度量 的 其 他 几 类 方法 。 


4.6.1 关联 规则 兴趣 度 评估 


从 上 面 的 分 析 可 以 知道 强 规则 不 一 定 是 有 趣 的 ,规则 是 否 有 趣 可 以 主观 或 客观 地 评 
估 。 当 规则 发 现 之 后 ,只 有 当时 的 用 户 能 够 评价 这 种 规则 是 否 有 趣 ,并 且 这 种 判断 是 主观 
的 , 因 人 而 异 的 。 但 是 ,根据 交易 数据 “背后 ”的 计数 量 ,可 以 首先 采用 客观 统计 分 析 的 兴 
趣 度 来 过 滤 掉 无 趣 的 规则 。 

定义 4-21 正 关 联 规则 兴趣 度 (interest) 。 关 联 规则 本 身 置 信 度 与 包含 规则 后 件 的 
交易 支持 度 之 间 的 差 值 , 即 规则 的 兴趣 度 = 规 则 的 置信 度 一 后 件 在 事务 数据 库 中 的 支 
持 度 。 

也 就 是 说 ,如 果 规 则 前 件 对 后 件 没有 任何 影响 ,那么 包含 前 件 的 交易 中 同时 也 包含 后 
件 的 比例 就 应 该 等 于 所 有 交易 中 包含 后 件 的 比例 , 即 该 规则 的 兴趣 度 为 0。 但 是 ,不 论 是 
非 正 式 还 是 严格 意义 上 说 , 若 一 条 规则 的 兴趣 度 很 高 或 者 是 一 个 绝对 值 很 大 的 负 值 ,都 是 
令 用 户 十 分 关注 的 ,前 者 说 明 在 交易 中 前 件 的 存在 在 某 种 程度 上 会 促进 后 件 的 发 生 ,而 后 
者 意味 着 前 件 的 存在 会 抑制 后 件 的 发 生 。 

Bil 43-9 在 一 个 交易 数据 库 中 共有 10 000 条 交易 记录 ,其 中 购买 电子 游戏 的 有 6000 
人 ,购买 VCD 的 人 有 7500 人 ,而 同时 购买 这 二 者 的 人 数 是 4000 人 ,假定 最 小 支持 度 阔 值 
为 30% ,最 小 置信 和 度 阅 值 为 60% ,对 于 一 条 如 下 的 关联 规则 : 

电子 游戏 VCD[ support 二 40% ,confidence=66 % ] 
规则 兴趣 度 (Interest) 王 规则 置信 度 一 购买 VCD 的 支持 度 一 一 0. 09 

从 上 例 可 知 ,电子 游戏 的 购买 会 抑制 VCD 的 购买 意愿 。 

EX 4-2 负 关 联 规则 兴趣 度 。 对 于 一 条 负 关 联 规则 X SY. CAM MME TEAR 
定义 如 下 : 


exp_sup(X) — sup(X U Y) 
sup(X) 


其 中 exp_sup(X) 是 项 集 X 的 期 望 支持 度 。 
4.6.2 关联 规则 相关 度 评 估 


正如 前 面 所 看 到 的 ,由 于 支持 度 和 置信 和 度 不 足以 过 滤 掉 那些 无 趣 无 用 的 关联 规则 ,为 
了 解决 这 个 问题 ,除了 可 以 用 兴趣 度 来 评估 之 外 ,通常 也 会 定义 相关 度 指标 来 扩充 支持 度 
和 置信 度 的 强 关联 规则 判断 框架 。 这 就 导致 了 描述 一 条 真正 强 关 联 规则 的 方法 ,如 下 








RI (4-4) 
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所 示 : 

A — B[ support, confidence, correlation] (4-5) 
以 上 公式 不 仅 使 用 了 支持 度 和 置信 和 度 度量 方式 ,而 且 加 入 了 项 集 A 和 项 集 B 的 相关 度 指 
标 。 下 面 主要 介绍 一 些 常用 的 相关 度 评估 指标 。 


1. 提升 度 度量 


提升 度 (lift) 是 一 种 简单 的 相关 度量 ,对 于 一 条 关联 规则 X=>Y ,其 提升 度 表示 含有 XX 
的 条 件 下 同时 含有 Y 的 概率 与 了 总 体 发 生 的 概率 之 比 ,其 计算 公式 如 下 : 


= PW LX) S 
lift(X,Y) 一 一 Po (4-6) 


如 果 上 式 的 值 小 于 1, 则 X 的 出 现 与 Y 的 出 现 是 负 相 关 的 ,意味 着 一 个 出 现 可 能 导 
致 男 一 个 不 出 现 ;如 果 结 果 值 大 于 1, 则 X 和 YY 是 正 相 关 的 ,代表 一 个 出 现 另 一 个 也 会 出 
现 ; 如 果 结 果 值 等 于 1, 则 XX 和 Y 是 独立 的 ,它们 之 间 没 有 相关 性 。 

例 4-10 在 一 个 交易 数据 库 中 共有 10 000 条 交易 记录 ,其 中 购买 电子 游戏 的 有 
6000 人 ,购买 VCD 的 人 有 7500 人 ,而 同时 购买 这 二 者 的 人 数 是 4000 人 ,假定 最 小 支 
Fe EBA (ELOY 30% , Bk) Ba EB 60% ,这 些 事务 可 以 汇总 在 一 个 相依 表 中 ,如 
K 4-10 所 示 。 





表 4-10 汇总 关于 购买 电子 游戏 和 VCD 事务 2X2 相依 表 











电子 游戏 EFIR 之 
VCD 4000 3500 7500 
VCD 2000 500 2500 
之 6000 4000 10 000 











对 于 一 条 如 下 的 关联 规则 : 
电子 游戏 VCD[ support 二 40% .confidence=66 % ] 


‘ 、、_PCVCD| 电 子 游 戏 ) _ 
lift( 电 子 游戏 ,VCD) 一 一 pcvep) 一 0.88 


由 计算 结果 可 知 , 该 强 关 联 规则 的 提升 度 值 为 0. 88, 说 明 规 则 的 前 件 电子 游戏 的 购 
买 会 抑制 规则 后 件 VCD 的 购买 ,将 这 条 规则 提供 给 用 户 是 没有 意义 的 。 


2. 卡 方 度量 


卡 方 (x?) 度 量 的 相关 性 计算 在 第 2 章 中 已 经 介绍 过 了 ,为 了 计算 x? 值 ,必须 先 得 到 
规则 前 件 和 后 件 的 相依 表 , 举 例如 下 。 

例 4-11 在 一 个 交易 数据 库 中 共有 10 000 条 交易 记录 ,其 中 购买 电子 游戏 的 有 6000 
人 ,购买 VCD 的 人 有 7500 人 ,而 同时 购买 这 二 者 的 人 数 是 4000 人 ,假定 最 小 支持 度 阔 值 
为 30% ,最 小 置信 和 度 贱 值 为 60% ,相依 表 上 的 观测 值 和 期 望 值 ,如 表 4-11 所 示 。 对 于 一 
条 如 下 的 关联 规则 : 


KB Hee A 


电子 游戏 一 VCD[ support = 40% confidence = 66% ] 
(观测 值 一 期 望 值 六 
一 之， 斯林 人 








(4000 — 4500)? , (3500 — 3000)? , (2000 — 1500)? | (500 — 1000)? 
4500 3000 ! 1500 | 1000 


= 555.6 
由 于 x 值 大 于 1, 而 且 电 子 游 戏 和 VCD 的 观测 值 4000 小 于 期 望 值 4500, 所 以 二 者 显然 
是 负 相 关 的 。 








表 4-11 显示 期 望 值 的 相依 表 














电子 游戏 生子 游戏 之 
VCD 4000(4500) 3500(3000) 7500 
VCD 2000(1500) 500(1000) 2500 
之 6000 4000 10 000 











4.6.3 其 他 相关 评估 度量 方法 


上 面 的 讨论 表明 ,简单 地 使 用 支持 度 -置信 度 框 架 来 评估 关联 规则 模式 是 不 够 的 ,还 
必须 引入 其 他 度量 ,如 兴趣 度 、 相 关 度 等 ,这 样 才能 真正 揭示 模式 的 内 在 联系 和 有 趣 性 。 
然而 仅仅 这 样 度量 ,效果 就 一 定 很 好 吗 ? 我 们 所 分 析 的 数据 集 本 身 还 存在 不 同 的 特点 , 比 
如 有 些 是 倾斜 的 数据 集 , 有 些 是 不 平衡 数据 集 , 有 些 数据 集 里 对 于 我 们 要 考察 的 项 集 所 包 
含 的 零 事 务 太 多 ,这 些 都 会 影响 以 上 讨论 到 的 各 种 评价 模式 的 指标 ,造成 分 析 结 果 的 可 用 
性 不 高 。 近 三 十 年 来 ,有 许多 关于 模式 评估 度量 方法 的 研究 ,这 里 介绍 几 种 公认 为 较 好 的 
可 以 度量 以 上 特殊 数据 集 的 评估 指标 。 首 先 介绍 几 个 相关 概念 。 

定义 4-23 不 平衡 比 (Imbalance Ratio,IR) 是 指 关联 规则 X=>Y 的 前 件 和 后 件 所 包 
含 的 项 集 X 和 了 在 交易 数据 集中 被 包含 的 不 平衡 程度 。 其 计算 公式 如 下 : 


| supC(X) — sup(Y) | 
sup(X) + sup(Y) — sup(X U Y) 


其 中 ,分 子 是 项 集 X 和 YY 的 支持 度 之 差 的 绝对 值 ,而 分 母 是 包含 项 集 X 或 Y 的 事务 数 。 
如 果 X 和 YY 在 数据 集中 被 包含 的 程度 基本 相同 ,该 不 平衡 比 之 值 为 0; 否则 ,两 者 之 差 越 
大 ,不 平衡 比 就 越 大 。 

EX 4-24 零 事务 (null-transaction) 是 指 在 所 有 的 交易 数据 中 不 包含 所 考察 的 规则 
前 件 和 后 件 项 集 的 事务 。 从 4. 6. 2 节 介 绍 的 相关 度 评 价 指标 提升 度 和 x? 的 计算 公式 可 
以 看 出 ,计算 概率 时 采用 的 都 是 整个 数据 库 中 事务 的 总 数 ,因此 必然 受 零 事 务 影响 非常 
大 ,不 能 很 好 地 识别 关联 规则 的 有 趣 性 。 

EX 4-25 ” 零 不 变性 (null-invariant) 是 指 规 则 的 度量 值 独立 于 零 事 务 的 个 数 , 即 不 
受 零 事 务 影响 的 程度 。 零 不 变性 是 度量 大 型 事务 数据 库 中 的 关联 规则 的 重要 性 质 。 

除了 兴趣 度 和 相关 度 指标 ,业内 领域 专家 也 提出 了 其 他 度量 模式 有 效 性 的 评估 方法 。 
这 里 主要 介绍 4 ARGC A RE aE ie RE Se A ER SK EE AM Kulczynski 度量 。 





IRCX.Y) (4-7) 
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定义 4-26 ”全 置信 和 度 (All-confidence) 的 定义 如 下 : 
sup(XUY) 























all_conf(X.Y) pr min{P(X | Y),P(Y | X)} (4-8) 
其 中 max{fsup(X),sup(Y)} 是 X 和 Y 的 最 大 支持 度 。 

定义 4-27 最 大 置信 和 度 (max_confidence) 的 定义 如 下 : 

max_conf(X.Y) = max{ P(X | Y).P(Y | X)} (4-9) 
定义 4-28 余弦 度量 的 定义 如 下 : 
cosin(X.Y) P(X UY) sup(X U Y) 
P(X) X P(Y) sup(X) X sup(Y) 

= J/P(X|Y)X PY |X) (4-10) 


定义 4-29 Kulczynski(Kulc) 度 量 。 该 度量 是 波兰 数学 家 S. Kulczynski 于 1927 年 
提出 的 , 它 是 两 个 置信 和 度 的 平均 值 ,更 确切 地 说 , 它 是 两 个 条 件 概率 的 平均 值 : 


Kule(X,Y) = Lex IY) +PY | X)) 


例 4-12 在 典型 的 数据 集 上 比较 6 种 模式 评估 度量 。 

电子 游戏 和 VCD 两 种 商品 购买 之 间 的 关系 可 以 通过 把 它们 的 购买 历史 记录 汇总 在 
K 4-12 的 2X2 相依 表 中 来 考察 ,其 中 像 gv 这 样 的 表 项 表示 包含 电子 游戏 和 VCD 的 多 
个 事务 。 


(4-11) 


表 4-12 两 个 项 的 2X2 相依 表 











电子 游戏 (g) 电子 游戏 (&) py, 

VCDCv) gv gv v 
VCD) gv w v 
之 g g D 











表 4-13 显示 了 一 组 事务 数据 集 ` 它 们 对 应 的 相依 表 项 和 6 个 评价 度量 的 值 。 先 考察 
前 4 个 数据 集 Di 至 D, 。 考 察 后 面 定义 的 4 个 相关 度 计算 指标 ,从 该 表 可 以 看 出 ,g 和 v 
在 数据 集 D, 和 D, 中 是 正 关联 的 ,在 D 中 是 负 关联 的 ,而 在 D, 中 是 中 性 的 。 对 于 D 
和 D:,g 和 v 是 正 相 关 的 ,因为 gv(10000) 显 著 大 于 Bv(1000) Al gy(1000)。 直 观 地 ,对 于 
购买 电子 游戏 的 人 (g 王 10000 十 1000 王 11000) 而 言 ,他 们 非常 可 能 也 购买 了 VCD(gv/g 一 
10/11=91%) ,反之 亦 然 。 


表 4-13 使 用 不 同 数据 集 的 相依 表 项 比较 和 6 种 模式 评估 度量 

















数据 集 | gv Ev av gv 六 “| 提升 度 | 全 置信 度 | 最 大 置信 和 度 | Kue | RI 
Dı | 10000 | 1000 | 1000 |100000| 90557 | 9.26 | 0.91 0.91 0.91 | 0.91 
D: | 10000 | 1000 | 1000 | 100 0 1 0.91 0.91 0.91 | 0.91 
D; 100 | 1000 | 1000 |100000| 670 | 8.44 | 0.09 0. 09 0.09 | 0.09 
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续 表 
数据 集 | gv Ev av gv E “| 提升 度 | 全 置信 和 度 | 最 大 置信 和 度 | Kue | R 
D, 1000 | 1000 | 1000 |100000] 24740 | 25.75] 0.5 0.5 0.5 0.5 
D; 1000 | 100 | 10000 |100000| 8173 | 9.18 | 0.09 0. 09 0.09 | 0.09 
D: 1000 | 10 |100000|100000| 965 | 1.97 | 0.01 0. 99 0.50 | 0.10 



































后 4 种 度量 在 前 两 个 数据 集 上 均 产 生 了 度量 值 0. 91, 显 示 g 和 v 是 强 正 相 关联 
的 。 然 而 ,提升 度 和 x? 对 前 两 个 数据 集 计 算出 的 相关 度 结果 却 与 后 4 个 指标 不 一 致 ， 
D, 是 强 相 关 的 ,D, 却 是 独立 的 ,原因 在 于 计算 中 对 gv 的 敏感 性 ,产生 了 显著 不 同 的 结 
果 。 事 实 上 ,在 许多 实际 情况 下 ,gv 通 常 都 很 大 且 不 稳定 。 例 如 ,在 购物 篮 数据 库 中 ， 
事物 的 总 数 可 能 按 天 波动 ,并 且 显 著 超 过 包含 任意 特定 商品 集 的 事务 数 。 因 此 ,一 个 
好 的 度量 相关 度 的 指标 不 应 该 受 不 包含 感 兴趣 项 的 事务 影响 ,否则 会 产生 不 可 信 的 
结果 。 

同 理 , 在 D; 数据 集 上 ,后 4 个 度量 都 正确 的 表明 g 和 v 是 强 负 相 关联 ,因为 g 和 v 之 
比 等 于 gv 和 g 之 比 , 即 100/1100 二 9.1%。 然 而 ,提升 度 和 x? 都 错误 地 与 此 相悖 。 

对 于 数据 集 D, ,提升 度 和 x? 都 显示 了 gA v 之 间 正 关联 ,而 其 他 度量 显示 “中 性 ” 关 
联 , 因 为 gv 与 Vv 之 比 等 于 gv 与 gv 之 比 ,均等 于 1。 这 意味 着 如 果 一 位 顾客 购买 了 电子 
游戏 , 则 也 会 购买 VCD 的 概率 恰好 为 50%。 

全 置信 和 度 、 最 大 置信 和 度 、 余 弦 度 量 和 Kule 度量 4 个 相关 度量 中 都 具有 很 好 的 零 不 变 
性 ,原因 在 于 这 4 个 度量 仅 受 X 了 和 XUY 的 个 数 的 影响 ,更 准确 地 说 , 仅 受 条 件 概率 
P(XIY) 和 PC(Y|X) 的 影响 ,而 不 受 事 务 总 个 数 的 影响 。 但 当 上 面 4 个 相关 度量 值 在 0.5 
附近 时 ,不 容易 断定 是 正 相 关 还 是 负 相 关 , 此 时 可 以 结合 使 用 提升 度 或 卡 方 分 析 。 然 而 由 
于 大 型 数据 集 常常 具有 许多 零 事务 ,因此 在 进行 相关 分 析 选 择 合适 的 兴趣 度量 指标 评价 
规则 的 有 效 性 时 ,考虑 零 不 变性 是 非常 重要 的 ,这 里 所 讨论 的 4 个 零 不 变性 度量 非常 重 
要 ,但 是 当 数 据 集 对 于 考察 的 规则 的 项 集 具有 不 平衡 性 或 倾斜 时 ,通常 使 用 Kulc 度量 比 
较 好 。 

总 之 ,如 果 只 是 使 用 支持 度 和 和 置信 和 度 来 挖掘 关联 ,可 能 产生 大 量规 则 。 但 是 其 中 有 很 
多 规则 是 无 用 的 ,是 用 户 所 不 感 兴趣 的 。 因 此 必须 使 用 附加 的 度量 来 分 析 有 趣 有 用 的 关 
联 规则 ,使 规则 数量 得 到 很 好 的 控制 ,同时 促使 有 意义 的 规则 呈现 出 来 。 


47 多 维 关联 规则 挖掘 


到 目前 为 止 ,我 们 研究 的 基本 上 都 是 同一 个 字段 的 值 , 也 就 是 同一 个 维 上 的 关系 , 比 
如 用 户 购买 的 物品 关联 规则 * 电 子 游戏 字 VCD?”, 然 而 在 用 于 数据 分 析 的 商品 交易 数据 仓 
库 中 ,实际 存储 的 数据 往往 是 多 维 的 ,除了 在 销售 事务 中 记录 有 购买 的 商品 之 外 ,还 会 记 
录 购 买 商品 的 顾客 信息 、 销 售 商品 的 时 间 、 地 点 及 商品 的 型 号 等 附加 信息 。 如 果 沿 用 数据 
库 中 的 概念 术语 ,上 面 的 那 条 关联 规则 只 有 一 个 维 , 即 商品 维 , 而 实际 上 决定 销售 数量 和 
好 坏 的 不 仅 有 商品 本 身 , 还 应 该 包括 销售 商品 的 时 间 、 地 点 及 顾客 群体 特征 。 一 个 好 的 关 
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联 规则 必然 和 多 个 维 相关 ,只 有 包含 有 多 个 维 的 关联 规则 才能 够 提供 关于 现实 世界 更 为 
有 用 的 信息 。 然 而 传统 的 关联 规则 分 析 算法 都 只 限于 单 维 关联 规则 的 挖掘 ,因此 对 这 方 
面 的 研究 将 是 一 件 十 分 具有 实际 意义 和 广泛 应 用 背景 的 工作 。 为 了 便于 读者 更 好 地 理解 
多 维 关 联 规则 ,首先 介绍 一 些 相 关 的 概念 ,沿用 数据 库 的 术语 ,规则 中 的 维 也 可 以 称 为 
谓词 。 

本 节 主 要 介绍 在 多 维 数据 的 情况 下 关联 规则 的 挖掘 方法 。 给 出 了 相关 概念 的 定义 ， 
同时 给 出 了 针对 数值 属性 所 采用 的 4 种 分 析 方 法 ,以 及 对 静态 和 动态 属性 离散 化 的 处 理 
方式 。 下 面 在 各 种 规则 两 端 出 现 的 X 均 代 表 所 分 析 的 交易 数据 集 。 

定义 4-30 单 维 (single-dimensional) 或 维 内 关联 规则 (intradimensional association 
rule) 。 在 一 条 关联 规则 的 前 件 和 后 件 中 都 只 有 同一 个 谓词 出 现 。 例 如 : 

buys(X," 电子 游戏 ") 过 buys(X,"VCD") (4-12) 

定义 4-31 多 维 关联 规则 (multidimensional association rule) 。 是 指 涉及 两 个 或 多 个 

维 或 谓词 的 关联 规则 。 例 如 
age(X,"20...29") A occupation(X,"student")=>buys(X,"laptop") (4-13) 

定义 4-32” 维 间 关联 规则 (interdimension association rule) 。 是 指 不 允许 规则 中 所 涉 
及 的 维 或 谓词 重复 出 现 的 关联 规则 ,如 式 (4-13) 就 属于 此 类 。 

定义 4-33 混合 维 关联 规则 (hybrid-dimension association rule)。 是 指 允 许 规则 中 所 
涉及 的 维 或 谓词 在 规则 的 左右 两 边 同 时 出 现 的 关联 规则 。 

age(X,"20...29") A buys(X,"ipad")=>buys(X "iphone" ) (4-14) 

在 挖掘 维 间 关 联 规则 和 混合 维 关联 规则 的 时 候 ,还 要 考虑 不 同 的 字段 属性 ,如 标 称 属 
性 和 数值 属性 。 对 于 标 称 属性 ,原先 的 算法 都 可 以 处 理 :而 对 于 数值 属性 ,需要 进行 一 定 
的 处 理 之 后 才 可 以 进行 。 处 理 数 值 属性 的 方法 基本 上 有 以 下 几 种 : 

(1) 数值 字段 被 分 成 一 些 预定 义 的 层次 结构 。 这 些 层 次 结构 都 是 由 用 户 预 先 定义 
的 ,得 出 的 规则 也 叫做 静态 数量 关联 规则 。 

(2) 数值 字段 根据 数据 的 分 布 分 成 了 一 些 布尔 字段 。 每 个 布尔 字段 都 表示 一 个 数值 
字段 的 区 间 , 落 在 其 中 则 为 1, 反 之 为 0, 这 种 分 法 是 动态 的 ,得 出 的 规则 叫 布尔 数量 关联 
规则 。 

G) 数值 字段 被 分 成 一 些 能 体现 其 含义 的 区 间 。 它 考虑 了 数据 之 间 的 距离 的 因素 ， 
得 出 的 规则 叫 基于 距离 的 关联 规则 。 

(4) 直接 用 数值 字段 中 的 原始 数据 进行 分 析 。 使 用 一 些 统计 的 方法 对 数值 字段 的 值 
进行 分 析 , 并 且 结 合 多 层 关 联 规则 的 概念 ,在 多 个 层次 之 间 进 行 比较 ,从 而 得 出 一 些 有 用 
的 规则 ,得 出 的 规则 叫 多 层 数 量 关 联 规则 。 

相 比 于 混合 维 关联 规则 , 维 间 关 联 规则 的 研究 比较 成 熟 , 以 下 将 简单 介绍 几 种 仅 限 了 
挖掘 维 间 关 联 规则 的 常用 方法 。 在 维 间 关 联 规则 的 频繁 集 搜索 中 ,与 单 维 关联 规则 挖掘 
不 同 , 它 不 是 搜索 频繁 项 集 ,而 是 搜索 频繁 谓词 集 ,例如 搜索 k 谓词 集 就 是 搜索 频繁 的 
个 合 取 谓词 集 。 
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1. 使 用 数值 铬 性 的 静态 离散 化 控 扬 多维 关 联 规则 


使 用 数值 属性 的 静态 离散 化 挖掘 多 维 关联 规则 即使 用 概念 离散 化 的 方法 对 数值 属性 进 
行 离散 化 。 这 种 离散 化 在 挖掘 之 前 进行 ,数值 属性 的 值 用 区 间 蔡 代 。 如 果 任 务 相关 的 结果 
数据 存放 在 关系 表 中 , 则 Apriori 算法 只 需要 稍 加 修改 就 可 以 找 出 所 有 的 频繁 谓词 集 , 而 不 
是 频繁 项 集 ( 即 通过 搜索 所 有 的 相关 属性 ,而 不 是 仅 搜索 一 个 属性 ) , 找 出 所 有 的 频繁 & 谓词 
集 将 需要 k 或 & 十 1 次 表 扫 描 。 还 可 以 结合 其 他 策略 如 散 列 ,划分 和 选 样 以 改进 性 能 。 


2. 使 用 数值 属性 的 动态 离散 化 控 扬 量化 关联 规则 


首先 根据 数据 的 分 布 , 将 数值 属性 动态 地 离散 化 到 “ 箱 ”, 这 些 箱 可 能 在 挖掘 过 程 会 被 
进一步 组 合 ,因此 说 这 个 离散 化 过 程 是 动态 的 ,组 合 目的 是 为 了 满足 某 种 挖掘 标准 ,如 最 
大 化 所 挖掘 的 规则 的 置信 度 。 由 于 这 种 方法 将 数值 属性 的 值 处 理 成 量 , 而 不 是 区 间 标 号 
之 类 ,其 挖掘 出 来 的 关联 规则 称 为 量化 关联 规则 。 典 型 的 代表 是 ARCS(Association 
Rule Clustering System, 关 联 规则 聚 类 系统 ) 算 法 。 该 方法 的 挖掘 思想 源 于 图 像 处 理 , 本 
质 上 就 是 将 量化 属性 对 映射 到 满足 分 类 属性 条 件 的 2D 栅 格 上 ,然后 搜索 机 格 点 进行 聚 
类 ,由 此 产生 关联 规则 。ARCS 算法 的 步骤 如 下 : 

(1) 分 箱 。 数 值 属 性 可 能 具有 很 宽 的 值 域 。 以 age 和 income 为 例 ,每 个 age 值 对 应 
在 一 个 平面 栅 格 的 x 轴 上 有 一 个 唯一 的 位 置 , 类 似 地 ,每 个 income 的 可 能 值 在 > 轴 上 有 
一 个 唯一 的 位 置 ,为 了 使 得 这 个 平面 压缩 到 一 个 可 管理 的 尺寸 ,将 数值 属性 的 坐标 离散 化 
到 区 间 ,这 些 区 间 可 以 根据 挖掘 期 间 的 要 求 动态 进行 合并 ,其 中 的 分 箱 策略 可 以 采用 等 宽 
或 等 深 的 方法 。 将 上 述 产 生 的 两 个 数值 属性 的 每 种 可 能 进行 组 合 ,得 到 一 个 2D 数组 。 

(2) 查找 频繁 谓词 集 。 一 旦 2D 数组 设置 好 ,就 可 以 扫描 它 , 以 找 出 满足 最 小 支持 度 
的 频繁 谓词 集 。 

(3) 关联 规则 聚 类 。 采 用 类 似 于 前 面 介绍 的 关联 规则 生成 算法 产生 关联 规则 ,将 得 
到 的 强 关 联 规则 映射 到 2D 栅 格 上 ,然后 对 这 些 规 则 进行 组 合 或 聚 类 ,形成 一 条 汇总 的 规 
则 ,以 取代 零散 的 规则 。 图 4-8 显示 了 给 定数 值 属性 age 和 income, 预 测 规则 后 件 buys 
(X,"laptop") 的 2D 量化 关联 规则 ,从 图 上 可 见 , 这 些 规则 紧密 相连 ,所 以 可 以 进行 合并 ， 
得 到 规则 4-19: 





age(X,34) A income(X."31k...40k")=>buys(X,"laptop") (4-15) 
age(X.35) A income(X."31k...40k")=>buys(X,"laptop") (4-16) 
age(X.34) A income(X,."41k...50k")=buys(X,"laptop") (4-17) 
age(X.35) A income(X."41k...50k")=>buys(X."laptop") (4-18) 


age(X."34...35") A income(X."31k...50k")=>buys(X."laptop") (4-19) 
(4) 优化 。 依 据 用 户 满意 的 关联 规则 要 求 , 对 求 取 强 关联 规则 的 最 小 支持 度 和 最 小 
置信 度 值 进行 启发 式 优 化 ,提升 关联 规则 的 质量 。 
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量化 关联 规则 获取 时 ,要 将 数值 属性 进行 分 箱 的 离散 化 ,但 是 这 种 离散 化 是 机 械 的 ， 
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图 4-8 给 定 的 数值 属性 age 和 income 


等 宽 分 箱 可 能 使 距离 很 近 的 值 分 开 , 并 且 有 可 能 创建 一 个 没有 值 的 区 间 ,而 等 深 分 箱 可 能 
将 很 远 的 值 放 在 一 组 ,由 此 产生 的 离散 化 往往 缺乏 意义 。 基 于 距离 的 划分 既 能 够 考虑 笛 
密 性 或 区 间 内 的 点 数 ,又 可 以 考虑 一 个 区 间 内 点 的 “接近 性 ”, 因 此 可 以 产生 更 有 意义 的 离 
散 化 。R.J. Miller 提出 了 一 个 非常 经 典 的 基于 距离 的 算法 ,其 主要 分 为 两 个 步骤 ， 

(1) 使 用 聚 类 找 出 区 间或 艇 。 定 义 一 个 直径 度量 .评估 数据 对 象 的 接近 性 ,这 个 直径 
是 投影 到 某 个 属性 X 上 的 数据 对 象 两 两 距离 的 平均 值 , 直 径 越 小 ,其 投影 到 属性 X 上 越 
接近 ,因此 直径 度量 可 以 评估 簇 的 稠密 性 。 满 足 稠密 度 阔 值 和 频繁 度 阔 值 的 数据 对 象形 
成 一 个 得 。 

(2) 将 簇 进行 组 合 , 形 成 基于 距离 的 关联 规则 。 例 如 一 个 简单 的 形 如 Cx 二 Cy 的 基 
于 距离 的 关联 规则 ,意味 着 代表 X JHE TBE Cy 中 的 数据 对 象 在 投影 到 属性 Y AEC, 上 
时 ,应 该 落 在 后 者 的 区 间 内 ,或 者 接近 该 区 间 。 二 者 的 距离 越 小 ,意味 着 它们 之 间 的 关联 
程度 越 强 。 


48 多 层 关 联 规则 挖掘 


对 于 许多 应 用 ,在 较 高 层 发 现 的 强 关联 规则 可 能 是 常识 性 知识 。 这 时 我 们 希望 在 更 
具 细 节 的 层次 发 现 新 颖 的 模式 。 但 是 ,在 低层 或 在 原始 层 可 能 存在 比较 零碎 的 模式 ,并 且 
其 中 一 些 也 只 不 过 是 较 高 层 模式 的 特例 化 。 所 以 多 层 关联 规则 的 挖掘 更 多 地 引起 人 们 的 
关注 ,如 例 4-12 所 示 。 

本 节 主 要 介绍 多 层 关联 规则 的 挖掘 方法 ,目的 在 于 从 更 细 的 层次 发 现 更 加 新 颖 的 关 
联 规则 ,并 且 详 细 地 给 出 了 相关 的 定义 和 概念 。 同 时 针对 多 层 规则 挖掘 问题 ,介绍 了 使 用 
一 致 性 最 小 支持 度 .递减 支持 度 .基于 组 和 项 等 的 控 气 方式。 

例 4-13 假定 购买 事务 的 相关 数据 集 如 表 4-14 所 示 , 它 是 某 超市 商店 的 部 分 销售 交 
易 数 据 。 将 表 中 所 涉及 的 商品 进行 抽象 分 层 ,由 低层 概念 抽象 到 高 层 更 一 般 的 概念 ,如 
图 4-9 所 示 。 
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R414 购买 事务 数据 记录 




















TID 购买 商品 

T1 光明 常温 奶 , 天 友 冷 藏 酸奶 

T2 多 鲜 白面 包 , 回 头 客 全 麦 面包 ,RIO 鸡尾酒 
Ts 可 口 可 乐 汽水 ,雪花 啤酒 ,天 友 冷 藏 酸奶 
T4 回头 窜 全 麦 面 包 , 光 明 常 温 奶 ,绿源 果汁 
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图 4-9 超市 商品 的 概念 分 层 
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K 4-14 的 项 集 都 属于 图 4-9 的 最 低层 ,通常 在 这 样 的 原始 数据 层 很 难 找到 有 趣 的 购 
买 模式 。 例 如 光明 常温 奶 和 多 鲜 白 面包 ,每 个 都 是 少量 地 出 现在 交易 事务 中 ,因此 很 难 找 
到 涉及 它们 的 强 关联 规则 ,显然 很 少 有 人 会 同时 购买 这 么 具体 的 商品 ,因此 ”“{ 光 明 常 温 
奶 ,多 鲜 白面 包 } ”不 太 可 能 满足 最 小 支持 度 。 但 是 把 光明 常温 奶 直 接 抽 象 化 为 常温 奶 ,多 
鲜 白面 包 抽象 化 为 白面 包 更 容易 发 生 关联 , 且 可 能 发 生 强 关联 。 

作为 传统 单 层 关联 规则 挖掘 技术 的 拓展 .多 层 关联 规则 挖掘 的 研究 方向 通常 分 为 同 
层 关联 规则 挖掘 和 跨 层 关联 规则 挖掘 两 个 方面 。 跨 层 关联 规则 最 早 是 由 R. Srikant 和 
R. Agrawal 在 1995 年 提出 的 ,他 们 在 分 析 了 具有 分 类 特性 数据 的 基础 上 ,指出 不 同 层 也 
可 能 存在 人 们 感 兴趣 的 关联 规则 ,并 提出 了 一 个 多 层 关联 规则 挖掘 算法 , 即 Cumulate $E 
法 。 此 后 诸多 的 研究 人 员 和 学 者 对 多 层 关联 规则 的 挖掘 算法 进行 了 大 量 的 研究 。 目 前 ， 
已 提出 的 多 层 关联 规则 挖掘 算法 大 多 是 通过 对 Apriori 算法 进行 扩展 得 到 的 ,例如 R. 
Srikant 和 R. Agrawal 提出 的 Cumulate 算法 、ML_T2 算法 等 。 这 类 算法 的 核心 仍 源 于 
Apriori 算法 ,需要 先 求 候选 集 , 再 求 候选 集 的 支持 度 。 例 如 ,ML_T2 算法 采用 自 顶 向 下 
的 策略 ,在 每 个 层 中 采用 Apriori 算法 挖掘 每 层 的 频繁 模式 ,算法 扫描 的 次 数 取决 于 频繁 
模式 的 长 度 。 

如 今 的 许多 数据 库 或 者 数据 仓库 存储 着 大 量 的 数据 ,在 这 样 的 数据 中 挖掘 关联 规则 
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需要 很 强 的 处 理 能 力 ,分 布 式 系 统 是 一 种 解决 方案 ,一 些 研究 者 提出 了 在 分 布 式 环境 下 对 
于 每 一 层 使 用 不 同 支持 度 的 多 层 关联 规则 挖掘 算法 ,该 方法 采用 轮 询 方式 处 理 分 布 式 系 
统 中 各 个 节点 间 的 通信 问题 ,在 各 个 节点 上 利用 集合 的 “或 ?和 * 与 ?运算 ,在 求 候选 频繁 模 
式 的 同时 就 求 出 了 模式 的 支持 度 ,减少 了 数据 库 的 扫描 次 数 。 随 着 空间 和 地 理 数 据 的 大 
量 累积 ,空间 知识 发 现 (SKD) 和 地 理 知识 发 现 (GKD) 逐 渐 成 为 相关 研究 领域 的 热点 。 研 
究 人 员 以 定性 空间 推理 的 RCC 理论 为 基础 ,结合 模糊 逻辑 ,提出 了 一 种 面向 空间 数据 库 
的 近似 区 域 空间 关系 模型 ,在 此 基础 上 给 出 了 多 层 空 间 关 联 规则 的 挖掘 算法 QSRSAR， 
该 算法 首先 使 用 了 MBR( 最 小 外 包 矩 形 ) 优 先 判定 、 顶 点 近似 等 手段 针对 大 型 空间 数据 库 
进行 了 优化 预 处 理 ,进而 在 此 基础 上 进行 多 层 关联 规则 的 挖掘 。 

定义 4-34 多 层 关联 规则 (multi-level association rules)。 在 多 个 抽象 层 的 数据 上 挖 
掘 产生 的 关联 规则 ,这 种 挖掘 通常 采用 自 顶 向 下 的 策略 ,在 置信 度 -支持 度 的 框架 下 ,从 最 
高 的 概念 抽象 层 开始 ,向 下 到 较 低 的 ,更 特定 的 概念 层 , 在 每 个 概念 层 累 积 计数 ,计算 频繁 
项 集 ,直到 不 能 再 找到 频繁 项 集 ,对 于 每 一 层 , 可 以 使 用 发 现 频 繁 项 集 的 任何 算法 。 

在 多 层 关联 规则 挖掘 中 ,对 每 一 抽象 层 频繁 项 集 最 小 支持 度 设置 非常 重要 。 由 于 较 
低层 次 的 项 不 大 可 能 像 较 高 层次 的 项 出 现 得 那么 频繁 ,如 果 最 小 支持 度 设置 得 太 高 ,可 能 
丢掉 出 现在 较 低层 次 中 有 意义 的 关联 规则 ;如 果 设置 得 太 低 ,可 能 产生 许多 较 高 层 无 意义 
的 关联 规则 。 因 此 在 不 同 的 研究 中 ,对 每 一 层 项 集 的 最 小 支持 度 会 有 不 同方 式 的 设置 , 通 
常 有 以 下 几 种 。 

(1) 对 于 所 有 层 使 用 一 致 的 最 小 支持 度 。 

在 每 一 个 抽象 层 挖 掘 时 使 用 相同 的 最 小 支持 度 国 值 。 如 图 4-10 所 示 , 对 所 有 抽象 层 
上 频繁 项 集 的 挖掘 都 使 用 最 小 支持 度 阔 值 5% 。 


牛奶 
[support=10%] 

酸奶 ,脱脂 奶 >> 
[support=6%] % [support=4%] | / 


4-10 使 用 相同 最 小 支持 度 阔 值 


使 用 一 致 的 最 小 支持 度 阔 值 时 ,搜索 的 过 程 变 得 简单 。 用 户 只 需要 指定 一 个 最 小 支 
持 度 阔 值 ,根据 祖 先是 其 后 代 超 集 的 相关 知识 ,可 以 采用 只 搜索 闭 频繁 集 或 者 极 大 频繁 集 
的 优化 策略 进行 频繁 项 集 的 查找 ,大 大 减少 了 查找 时 间 。 然 而 正如 前 面 提 到 的 一 致 支持 
度 方法 也 有 一 些 缺 点 一 样 , 较 低 抽象 层 的 项 不 可 能 像 较 高 层 的 项 出 现 得 那么 频繁 。 如 果 
最 小 支持 度 阔 值 设置 得 太 高 ,可 能 错失 出 现 较 低 抽象 层 中 有 意义 的 关联 规则 ;反之 , 则 可 
能 产生 过 多 较 高 层 中 无 意义 的 关联 规则 。 

(2) 在 较 低 层 使 用 递减 的 最 小 支持 度 。 

每 一 个 抽象 层 拥有 自己 的 最 小 支持 度 阔 值 。 如 图 4-11 所 示 , 层 1 和 层 2 的 最 小 支持 









层 2 


E EE A 


BEREDI 5% A 3%。 使 用 这 种 方法 ,会 得 到 “牛奶 “酸奶 ”和 “脱脂 奶 ”都 是 频繁 项 的 






结论 。 
牛奶 
层 2 [support=6%] [support=4%] 


4-11 递减 的 最 小 支持 度 的 多 层 挖掘 


(3) 使 用 基于 项 或 基于 分 组 的 最 小 支持 度 。 

在 挖掘 多 层 关联 规则 时 ,有 了 时 更 希望 建立 用 户 指 定 的 基于 项 或 基于 分 组 的 最 小 支持 
度 阅 值 ,因为 用 户 和 专家 通常 更 清楚 哪些 组 比 其 他 组 更 重要 。 例 如 ,超市 经 理 更 想 了 解 
“ 售 价 大 于 20 元 / 盒 的 950ml 纯 鲜 奶 ” 的 销售 情况 ,为 了 能 够 发 掘 这 类 商品 的 关联 模式 ,他 
们 可 以 为 此 类 商品 的 支持 度 设置 更 小 的 支持 度 阔 值 。 

递减 的 最 小 支持 度 的 多 层 关联 规则 挖掘 能 够 搜索 到 更 多 有 用 的 关联 模式 ,许多 研究 
和 实际 应 用 中 采用 了 多 种 递减 搜索 的 策略 。 

C1) 层 交 叉 单项 过 滤 。 

一 个 第 i 层 的 项 被 考察 , 当 且 仅 当 它 在 第 i 一 1 层 的 父 节点 是 频繁 的 。 如 图 4-12 所 
示 , 由 于 父 节 点 “牛奶 ” 低 于 所 在 层 的 最 小 支持 度 ,因此 其 子 节点 “酸奶 ”和 “脱脂 奶 ”不 可 能 


成 为 频繁 集 。 
牛奶 


层 2 {酸奶 (不 会 被 检测 )} {脱脂 奶 (不 会 被 检测 )} 
图 4-12 层 交叉 单项 过 滤 





(2) 层 交 又 上 项 集 过 滤 。 

一 个 第 i 层 的 & 项 集 被 考察 , 当 且 仅 当 它 在 第 i 一 1 层 的 对 应 父 节 点 人 项 集 是 频繁 的 。 
如 图 4-13 所 示 , 由 于 父 节点 2 项 集 * 牛 奶 和 面包 ”是 频繁 集 ,因此 其 子 节点 2 项 集 “ 脱 脂 奶 
和 白面 包 ”“ 酸 奶 和 白面 包 ”“ 脱 脂 奶 和 黑 面 包 ” 以 及 “酸奶 和 黑 面 包 ” 都 必须 考察 是 否 是 频 
繁 项 集 。 

G) 受 控 的 层 交 又 单项 过 滤 策 略 。 

设置 一 个 层 传递 冰 值 ,用 于 向 较 低 层 传递 相对 频繁 的 项 。 如 图 4-14 所 示 , 虽 然 父 节 
点 “牛奶 ”的 支持 度 小 于 本 层 的 最 小 支持 度 阔 值 ,但 是 所 设置 的 层 传递 阔 值 为 8% ,其 支持 
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脱脂 奶 & 白 面包 酸奶 & 白 面包 脱脂 奶 & 黑 面包 酸奶 & 黑 面包 
[support=1%] [support=2%] [support=1%] [support=3%] 


Rul 
Ce 





图 4-13 层 交 叉 上 项 集 过 滤 
EKF 8%, 因 此 其 子 节点 “酸奶 ”和 “脱脂 奶 ” 都 要 被 考察 是 否 为 频繁 项 集 。 





图 4-14 受 控 的 层 交叉 单项 过 滤 策 略 


(4) 交叉 层 关联 规则 。 

应 当 使 用 较 低 层 的 最 小 支持 度 冰 值 ,使 得 较 低层 的 项 可 以 包含 在 分 析 中 ,其 中 规则 中 
的 项 不 要 求 属于 同一 抽象 层 。 

定义 4-35 多 层 关联 规则 的 宛 余 性 。 在 挖掘 多 层 关联 规则 时 ,由 于 项 间 的 “祖先 ” 关 
系 , 有 些 发 现 的 关联 规则 时 常 是 元 余 的 ,也 就 是 说 如 果 一 个 一 般 性 的 规则 不 提供 新 的 信 
息 , 则 是 一 个 无 趣 和 完 余 的 规则 。 通 常 根 据 此 规则 的 祖先 规则 的 支持 度 和 置信 度 进行 判 
断 , 如 果 它 的 支持 度 和 置信 和 度 都 接近 于 “期 望 值 ”, 则 被 认为 是 宛 余 的 。 

例 4-14 多 层 关联 规则 的 元 余 性 。 


buys(X." MI" )=>buys( X." 白面 包 ") 

(4-20) 
{support = 8% ,confidence = 70% ] 
buys( X." 光明 酸奶 ")=>buys(X," 沁 园 白面 包 ") 

(4-21) 
[support = 2% confidence = 72% ] 


如 果 在 超市 的 销售 中 大 约 有 四 分 之 一 的 酸奶 都 是 光明 酸奶 , 则 由 以 上 两 式 可 知 , 式 
(4-21) 的 支持 度 正 好 是 式 (4-20) 的 四 分 之 一 ,而 置信 度 相 当 , 因 此 规则 (4-21) 不 能 提供 任 
何 更 多 用 于 营销 策略 的 有 用 有 效 的 信息 . 它 不 是 有 趣 的 ,应 该 作为 元 余 规则 从 所 得 到 的 关 
联 规则 中 删除 。 

综 上 ,可 见 在 多 层 概 念 下 找到 的 关联 比 在 原始 数据 下 找到 的 单 层 关联 规则 更 有 趣 , 同 
IY H. 
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美国 沃尔玛 对 它 的 一 家 分 店 做 了 关联 分 析 ,以便 发 现 物品 之 间 的 关联 关系 ,对 物品 摆 
放 进 行 合理 布局 ,以 此 提高 商品 的 销售 。 合 理 而 高 效 的 关联 分 析 不 仅 带 来 有 效 的 数据 支 
撑 , 更 为 商业 决策 者 提供 了 理论 与 实际 相 结合 的 参考 。 

下 面 对 沃 尔 玛 实际 的 销售 记录 进行 关联 分 析 , 借 助 于 Python 平台 ,发 现 商品 之 间 的 
秘密 。 


1. 数据 准备 


本 例 提取 了 某 沃尔玛 分 店 一 部 分 的 销售 记录 ,同时 为 了 读者 能 够 清晰 地 理解 ,这 里 过 
滤 出 了 销售 数目 大 于 等 于 两 件 . 小 于 七 件 的 商品 ,并 且 属 于 食品 的 销售 记录 。 总 共 获 取 记 
K 142 条 ,把 这 个 数据 文件 命名 为 Comm-rec-data。 每 一 行 代表 一 条 销售 记录 ,每 条 记录 
有 以 下 几 个 特征 : 

© 交易 流水 号 。 

。 商品 名 称 。 

为 了 能 够 清晰 理解 商品 销售 记录 的 形式 ,下 面 选取 了 记录 的 前 20 条 ,如 表 4-15 
所 示 。 


表 4-15 简易 购物 交易 记录 表 















































交易 流水 号 商品 名 称 /商品 编号 
0000 啤酒 (1) BEC) 奶酪 (3) 
0001 尿布 (5) 啤酒 (1) 火腿 (6) 
0002 奶酪 (3) 尿布 (5) 火腿 (6) 啤酒 (1) 
0003 火腿 (6) 豆奶 (2) 尿布 (5) 
0004 啤酒 (1) BEC) 奶酪 (3) 
0005 尿布 (5) 火腿 (6) 啤酒 (1) 
0006 啤酒 (1) 奶酪 (3) REG) 
0007 尿布 (5) 啤酒 (1) 火腿 (6) 
0008 奶酪 (3) 豆奶 (2) 啤酒 (1) 尿布 (5) 火腿 (6) 
0009 尿布 (5) 豆奶 (2) 
0010 啤酒 (1) BEG) 奶酪 (3) 
0011 豆奶 (2) 啤酒 (1) 尿布 (5) 火腿 (6) 
0012 啤酒 (1) 尿布 (5) 奶酪 (3) 
0013 豆奶 (2) 尿布 (5) 火腿 (6) 
0014 奶酪 (3) BEG 啤酒 (1) 
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续 表 
交易 流水 号 商品 名 称 /商品 编号 
0015 尿布 (5) 豆奶 (2) 啤酒 (1) 火腿 (6) 
0016 奶酪 (3) 尿布 (5) 啤酒 (1) 
0017 豆奶 (2) 尿布 (5) 啤酒 (1) 火腿 (6) 
0018 啤酒 (1) 尿布 (5) REG) 
0019 奶酪 (3) 啤酒 (1) BEG) 尿布 (5) 火腿 (6) 























分 析 了 购物 记录 的 基本 特征 后 ,为 了 能 够 让 计算 机 识别 其 中 的 商品 内 容 , 程 序 设计 时 
需要 将 记录 中 出 现 的 各 类 商品 进行 编号 ,例如 : 0000 记录 中 的 “啤酒 ”1 光 芮 苔 ”一 4 等 ， 
其 他 所 有 商品 的 编号 见 表 4-14 中 每 个 商品 名 称 后 括号 内 的 数字 。 


2. 规则 获得 的 过 程 


完成 以 上 的 过 程 后 ,通过 Python 设计 的 关联 规则 界面 对 数据 进行 加 载 ,获得 频繁 项 
集 和 关联 规则 ,下 面 详细 讲解 整个 过 程 。 

根据 频繁 项 集 的 概念 ,可 得 到 { 尿 布 , 啤 酒 } 为 一 个 频繁 项 集 。 由 此 ,再 根据 规则 可 以 
得 到 * 尿 布 一 啤酒 ”的 关联 规则 ,意味 着 买 尿布 的 顾客 很 可 能 会 买 啤酒 。 使 用 频繁 项 集 和 
关联 规则 能 够 帮助 商家 找到 顾客 的 消费 行为 ,商家 能 够 及 时 地 对 这 些 行为 进行 一 定 的 营 
销 策略 调整 。 

根据 表 4-15 的 数据 ,获取 关联 规则 所 需要 的 参数 设 定 如 下 : 

(1) 支持 度 。 一 个 项 集 的 支持 度 (sup) 被 定义 为 数据 集中 包含 该 项 集 的 数量 占 总 计 
WER, ER 4-15 所 示 的 交易 记录 中 ,1 项 集 {尿布 ) 的 支持 度 是 0. 40,2 项 集 { 尿 布 , 啤 
酒 } 的 支持 度 是 0. 30。 

(2) 置信 和 度 。 又 名 可 信和 度 , 对 尿布 和 啤酒 的 关联 规则 定义 可 得 到 置信 和 度 为 “项 集 { 尿 
布 ,啤酒 } 的 支持 度 /项 集 {尿布 ) 的 支持 度 ”, 所 以 根据 公式 可 得 到 “尿布 习 啤 酒 ” 的 置信 度 
为 75%。 

同 理 能 得 到 啤酒 和 奶酪 的 关系 ,这 里 它们 的 置信 度 约 为 70% ,使 用 Python 语言 编写 
了 Apriori 算法 ,通过 单 击 loadData 加 载 数据 文件 ,设置 最 小 支持 度 为 0.5, 最 小 可 信和 度 为 
0.7, 其 他 属性 选用 默认 值 , 单 击 “ 开 始 ? 按 钮 ,获得 了 如 图 4-15 所 示 的 关联 规则 。 
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fesstudy/date. csv 频繁 项 集 和 关联 规则 


minSupport [0.5 








关联 规则: 

frozenset ({5}) —> frorenset({3}) conf 
7999999999999999 

— | frozenset ({3}) —> frozenset ({5}) conf: 





metricType 








minConfince 











70688235294 
frozenset ({6}) —> frozenset({5}) conf: 1.0 
outputItenSets [True E) | gror Il) — UEH) conf. 


开始 az || xa 






































图 4-15 Apriori 运行 界面 
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所 获得 的 频繁 项 集 如 图 4-16 所 示 。 
































©) Apriori ? x 
esstudy/date esr PROTA 
minSupport [0.5 频繁 项 集 : ~ 
i oe t({6}), fr t({1}), 
netrictype [Confidence | | rorenset({3}), brozensetC{5})], [frozenset (13, 
ninfonfince [0.7 5}), frozenset({5, 6}), frozenset({1, 3})], [1] 
outputItenSets [True ||: a PE E v 
ma || = || 并 | 

















图 4-16 Apriori 频繁 项 集 


在 图 4-16 所 示 的 频繁 项 集中 ,获得 了 {1,3} 的 频繁 项 集 , 也 就 是 (啤酒, 奶酪) 是 频繁 2 
项 集 ,同时 也 能 在 关联 规则 中 获得 两 者 之 间 的 规则 。 本 Apriori 算法 用 Python 实现 ,在 
本 书 配套 电子 资源 中 提供 了 相关 代码 。 
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海量 数据 中 频繁 模式 、 相 关 关 系 和 关联 的 发 现在 商品 促销 、 商 业 决 策 和 市 场 规划 
中 是 有 用 的 。 在 众多 此 类 应 用 中 ,购物 篮 分 析 是 一 种 最 热门 的 应 用 , 它 通 过 在 购 
物事 务 记录 中 搜索 常 一 起 购买 的 商品 集合 ,研究 顾客 的 购买 行为 和 习惯 。 

关联 规则 的 挖掘 过 程 主要 是 获得 频繁 项 集 , 如 在 项 集合 中 有 “和 牛奶” 和“ 面包”, 它 
们 满足 最 小 支持 度 阅 值 或 任务 相关 元 组 的 百分比 ,由 它们 产生 形 如 “牛奶 面 包 ” 
的 强 关联 规则 。 这 些 规 则 还 满足 最 小 置信 和 度 阅 值 (预定 义 的 在 满足 “购买 牛奶 ” 
的 条 件 下 满足 购买 面包 ”的 概率 )。 可 以 进一步 分 析 关 联 ,发 现 项 集 “ 牛 奶 ” 和 “ 面 
包 ” 之 间 具 有 相关 规则 。 

在 频繁 项 集 挖掘 中 ,算法 主要 有 3 类 : Apriori 算法 、 改 进 的 DHP 算法 和 FP- 
Growth 算法 。 

Apriori 算法 是 一 种 挖掘 关联 规则 的 频繁 项 集 算法 ,其 核心 思想 是 通过 候选 集 生 
成 和 向 下 封闭 检测 两 个 阶段 来 挖掘 频繁 项 集 。 它 逐 层 进行 挖掘 ,利用 了 先 验 性 
质 : 频繁 项 集 的 所 有 非 空子 集 也 是 频繁 的 。Apriori 算法 的 两 个 输入 参数 分 别 是 
最 小 支持 度 和 数据 集 。 该 算法 首先 会 生成 所 有 单个 元 素 的 项 集 列 表 。 接 着 扫描 
数据 集 来 查看 哪些 项 集 满足 最 小 支持 度 要 求 ,那些 不 满足 最 小 支持 度 的 集合 会 被 
去 掉 。 然 后 ,对 剩 下 来 的 集合 进行 组 合 以 生成 包含 两 个 元 素 的 项 集 。 接 下 来 ,再 
重新 扫描 交易 记录 ,去 掉 不 满足 最 小 支持 度 的 项 集 。 该 过 程 重复 进行 ,直到 所 有 
有 项 集 被 去 掉 。 

频繁 模式 增长 (FP-Growth) 算 法 基于 Apriori 构建 ,采用 了 高 级 的 数据 结构 减少 
扫描 次 数 ,大 大 加 快 了 算法 速度 。FP-Growth 算法 只 需要 对 数据 库 进行 两 次 扫 
描 , 而 Apriori 算法 对 于 每 个 潜在 的 频繁 项 集 都 会 扫描 数据 集 以 判定 给 定 模式 是 
否 频繁 ,因此 FP-Growth 算法 的 速度 要 比 Apriori 算法 快 。 
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并 非 所 有 的 强 关 联 规则 都 是 有 趣 的 。 所 以 ,应 用 适当 的 模式 评估 度量 来 扩展 支持 
度 -置信 度 框 架 , 促 进 更 加 有 趣 的 规则 挖掘 ,以 产生 更 加 可 行 的 相关 规则 。 本 章 对 
全 置信 和 度 、x? 、 最 大 置信 和 度 、 提 升 度 、 余 弦 度 量 和 Kulczynski 度量 6 种 评估 度量 进 
行 了 讨论 ,并 说 明了 置信 度 、 最 大 置信 度 、 余 弦 度 量 和 Kulczynski 度量 4 种 是 零 不 
变 的 。 一 般 Kulczynski 度量 与 不 平衡 比 一 起 使 用 ,提供 了 项 集 间 的 模式 联系 。 


41 J 题 


1. 请 证 明 下 列 关系 ， 

sup(X UYUZ)>sup(X UY) +sup(X UZ) —sup(X) ,此 处 XY、Z 都 是 数据 集 里 的 
频繁 项 集 。 

2. 试 说 明 在 Apriori 算法 中 支持 度 和 置信 度 扮 演 的 角色 。 

3. 某 大 型 量贩 店 为 了 了 解 顾客 的 消费 行为 以 及 产品 组 合 的 销售 情形 ,定期 搜集 各 收 
款 机 的 每 笔 交 易 记 录 ,以 获得 各 时 段 中 各 类 商品 的 购买 次 数 及 单 笔 数量 。 表 4-16 为 抽样 
5 笔 交易 记录 (顾客 所 购买 的 商品 组 合 ) , 试 回答 下 列 问题 ， 

(1) 利用 Apriori 算法 找 出 所 有 2 项 集 的 可 能 规则 。 

(2) 计算 所 有 2 项 集 可 能 的 规则 支持 度 和 和 置信 和 度 。 

G) 若 支持 度 阔 值 定 为 20% , 且 置 信和 度 阐 值 为 20% , 试 找 出 被 列 入 候选 集 的 规则 。 

(4) 利用 Apriori 算法 找 出 所 有 的 3 项 集 的 可 能 规则 ,计算 其 支持 度 与 置信 和 度 ,并 找 
出 被 列 入 候选 集 的 规则 。 

表 4-16 购物 交易 记录 表 

















交易 记录 商品 名 称 和 代码 
160122330 面包 (A) AH BB) .芝麻 着 CC) 
160122331 面包 (A) ZRH CO 
160122332 面包 (A) ZRK CO .牛奶 (D) 
160122333 面包 (A) ,啤酒 CE) 

160122334 牛奶 (D) ,啤酒 (E) 








4. ME X 称 为 数据 集 D 上 的 生成 元 (generator) ,如 果 不 存 在 真子 集 YCX 使 得 
sup(X) 一 sup(Y)。 生 成 元 是 频繁 的 生成 元 ,如 果 sup(X) 满 足 最 小 支持 度 阔 值 。 设 G 是 
数据 集 D 上 的 所 有 频繁 生成 元 的 集合 。 

(1) 仅 使 用 G 和 它们 的 支持 度 计 数 , 你 能 确定 项 集 A 是 否 是 频繁 的 ,并 且 如 果 A 是 
频繁 的 ,确定 A 的 支持 度 。 如 果 可 能 ,给 出 你 的 算法 。 如 果 不 能 给 出 算法 ,还 需要 什么 信 
息 ? 确定 需要 的 信息 ,给 出 你 的 算法 。 

(2) 简 述 闭 项 集 和 生成 元 的 关系 。 

5. 给 出 一 个 例子 表明 关联 规则 中 的 负 模 式 。 

6. 数据 库 有 5 个 事务 ,如 表 4-17 所 示 。 设 min_sup 一 60% ,min_conf 一 80% 。 
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R417 ”数据库 事务 记录 表 














TID 购买 的 商品 TID 购买 的 商品 
T100 {M,0.N,K,E, Y} T400 {M,U,C,K,Y} 
T200 {D,O,N,K,E,Y} T500 {C,0,0,K,1,E} 
T300 {M,A,K,E} 

















(1) 分 别 使 用 Apriori 算法 和 FP-Growth 算法 找 出 频繁 项 集 。 比 较 两 种 挖掘 过 程 的 
有 效 性 。 
(2) 列举 所 有 与 下 面 的 元 规则 匹配 的 强 关联 规则 (给 出 支持 度 * 和 置信 度 c) ,其 中 ,XX 
是 代表 顾客 的 变量 ,item 是 表示 项 的 变量 (如 “A”“B” 等 ): 
V, € transaction,buys(X,item) A buys(X,item;s)—>buys(X,item;)[s,c] 


7. 请 根据 表 4-18 画 出 一 棵 FP-tree 并 解释 如 何 从 FP-tree 中 导出 频繁 项 集 。 
表 4-18 数据 库 事务 记录 表 


























TID 项 集 TID 项 集 

Tol {C,M,E} T06 {A,C,E,O} 
T02 {A,C} To7 {B,C,O} 
T03 {A,B.C,0,G} T08 {C,E,G} 
To4 {B,E,O} T09 {B,C,E,G} 
T05 {C,M,G} T10 {B,C,G} 


8. 大 部 分 频繁 模式 挖掘 算法 只 考虑 事务 中 的 不 同 项 。 然 而 ,一 种 商品 在 一 个 购物 篮 
中 多 次 出 现 ( 如 4 盒 牛 奶 或 3 份 面包 ) 的 情况 在 销售 数据 分 析 中 可 能 是 重要 的 。 考 虑 项 的 
多 次 出 现 ,如 何 有 效 地 挖掘 频繁 项 集 ? 对 著名 的 算法 ,如 Apriori 算法 和 FP-Growth 算 
法 ,提出 修改 方案 ,以 适应 这 类 情况 。 

9. 假设 作为 一 家 连锁 店 经 理 , 你 想 使 用 销售 事务 数据 库 评 估 你 的 商品 广告 效应 , 尤 
其 是 想 研 究 具体 因素 如 何 影响 预告 特定 类 型 的 商品 降价 出 售 的 广告 效应 。 要 研究 的 因素 
是 顾客 居住 的 地 区 (region) ,星期 几 (day) 和 一 天 内 的 广告 次 数 (times)。 讨 论 如 何 设 计 一 
种 有 效 的 方法 挖掘 该 事物 数据 集 ,并 解释 如 何 用 多 维和 多 层 挖掘 方法 帮助 你 得 到 好 的 解 。 

10. 给 定 一 个 高 频 项 目 集 {A,B,C.D,.E,F}, 则 在 此 项 目 集 之 下 ,最 多 可 能 存在 多 少 
条 关联 规则 ? 

11. 假设 一 家 生 鲜 超市 的 管理 者 想 在 固定 时 段 将 某 些 隔夜 即 需 丢 弃 的 商品 以 商品 合 
售 打折 的 方式 进行 推销 ,应 该 如 何以 关联 分 析 来 协助 策划 此 方案 ? 

12. 频繁 模式 挖掘 可 能 产生 过 多 的 模式 。 所 以 ,重要 的 是 开发 挖掘 压缩 模式 的 方法 。 
假设 用 户 只 想得到 & 个 模式 (4A 是 一 个 小 整数 ) 。 设 计 一 种 有 效 的 方法 , 它 产 生 & 个 最 具 
代表 性 的 模式 ,其 中 越 是 截然 不 同 的 模式 越 是 首选 的 模式 。 使 用 一 个 数据 量 较 小 的 数据 
集 解释 你 的 方法 的 有 效 性 。 


160 


242 RBARR 


412 参考 文献 


1] Agrawal R; Srikant S, Past Algorithms: for’ Mining: Association: Riles: in Large Databases [i 

Journal of Computer Science and Technology, 2000, 15(6): 619-624. 

2] Liu Y X. Study on Application of Apriori Algorithm in Data Mining[C]. International Conference on 

Computer Modeling and Simulation, 2010,3; 111-114. 

3] Cheng Y, Xiong Y. Research and Improvement of Apriori Algorithm forAssociation Rules[C]. 

International Workshop on Intelligent Systems & Applications, 2010; 1-4 

[4] EM Ee DS, Ee RAY A PP) Bah Hs KI). 计算 机 科学 与 探索 ,2015，9 (4): 

429-437, 

5] 陈 才 扣 . 数据 挖掘 中 负 关联 规则 的 研究 [D]. 南京 : 东南 大 学 ,2000. 

6] Purdom,W. Paul, V. Gucht, et al. Average-case Performance of the Apriori Algorithm. SIAM J. 

Comput, 2004, 33(5): 1223-1260. 

[7] Niu Z D, Nie Y X, zhou Q, et al. A Brain-Region-based Meta-Analysis Method Utilizing the Apriori 

Algorithm[J]. BMC Neuroscience, 2016, 17(1): 1-7. 

8] Wang F, Li Y H. An Improved Apriori Algorithm based on the Matrix[J]. International Seminar on 
Future Biomedical Information engineer, 2008, 30(10); 152-155. 

[9] Park J S, Chen MS, Yu P S. An Effective Hash-based Algorithm for Mining Association RulesLC]. 

Proceedings of ACM SIGMOD International Conference on Management of Data, 1995; 175-186. 

[10] Yang G, Zhao H, Wang L, et al. An Implementation of Improved Apriori Algorithm [C]. 





International Conference on Machine Learning & Cybernetics, 2009, 3: 1565-1569. 

[11] Han J W, Kamber M. 数据 挖掘 概念 与 技术 [M]. 3 版 . 范 明 , 孟 晓 峰 , 等 译 . 北京 : 机 械 工业 出 版 

社 ,2012. 

[12] Borgelt C. An Implementation of the FP-Growth Algorithm[C]. OSDM Proceedings of International 
Workshop on Open Source Data Mining Frequent Pattern, 2010; 1-5. 

13] 窦 祥 国 . 关联 规则 评价 方法 研究 [D]. 合肥 : 合肥 工业 大 学 ,2005. 

14] Wang L，Fan X J, Long X L, et al. Mining Data Association based on a Revised FP-Growth 
Algorithm[C]. International Conference on Machine Learning and Cybernetics, 2010; 91-95. 

[15] Deng Y G, She Y, Jia W Q. Research on the Improvement of FP-Growth based on Hash[C]. 


International Conference on Information Science &-Engineering, 2010; 5362-5365. 

[16] Zhu T Y, Ma Z X, Liu S J, et al. Improved Negative Selection Algorithm based on Bloom Filter 
[C]. International Conference on E-business & Information System Security, 2009: 1-4. 

17] 喻 昌 祺 . 多 维 关 联 规则 算法 设计 [D]. 北京 : 北京 邮电 大 学 ,2006. 

18] Shanal J, Venkatachalam T. An Improved Method for Counting Frequent Itemsets Using Bloom 
Filter[C]. Procedia Computer Science,2015, 47: 84-91. 


[19] Pontarelli S, Reviriego P, Maestro J A. Improving Counting Bloom Filter Performance with 


Fingerprints_J]. Information Processing Letters, 2016, 116(4): 304-309. 

[20] Lent B, Swami A, Widom J. Clustering Association Rules[C]. International Conference on Data 
Engineering, 1997; 220-231. 

[21] Padual R D, Santos F F D, Conrado M D S,et al. Subjective Evaluation of Labeling Methods for 





161 


ARBRARH A 


Association Rule Clustering[C]. Mexican International Conference on Artificial Intelligence,2013, 
8266: 289-300. 

[22] Balcazar J L, Dogbey F. Evaluation of Association Rule Quality Measures through Feature 
Extraction[C]. Lecture Notes in Computer Science. 2013; 1-4 

[23] Shimada K, Hanioka T. An Evolutionary Method for Exceptional Association Rule Set Discovery 
from Incomplete Database[J]. Information Technology in Bio-& Medical Informatic, 2014, 8649 
(3): 133-147. 

[24] Sawanta V, Shah K. Performance Evaluation of Distributed Association Rule Mining Algorithms 
[J]. Procedia Computer Science,2016, 79; 127-134. 

[25] Miller R J, Yang Y. Association Rules over Interval Data[ J]. ACM Sigmod Record, 1998, 
26(2) : 452-461. 

[26] 刘 大 有 , 王 生 生 , 钼 强 源 ,等 . 基于 定性 空间 推理 的 多 层 空间 关联 规则 挖掘 算法 [J]. 计算 机 研究 与 发 
展 , 2004, 41(4): 565-570. 

27] 任 家 东 , 任 东 英 ,高 伟 . 分 布 式 多 层 关联 规则 挖掘 [J]. 计算 机 工程 ，2003，29(5) : 96-98. 

28] Termier A, Rousset M C, Sebag M. A New Approach for Discovering Closed Frequent Trees in 
Heterogeneous Tree Databases[C]. IEEE International Conference on Data Mining. 2004: 543-546. 

[29] Witten I H, Frank E, Hall M A. Data Mining: Practical Machine Learning Tools and Techniques 
[M]. 3rd ed, 北 京 : 机 械 工业 出 版 社 , 2011. 





数据 分 类 分 析 


分 类 (classification) 是 一 种 重要 的 数据 分 析 形 式 , 它 是 提取 刻画 重要 数据 类 的 模型 ， 
也 是 机 器 学 习 和 数据 挖掘 领域 中 的 一 整套 用 于 处 理 分 类 问题 的 方法 。 该 类 方法 是 有 监督 
学 习 类 型 的 , 即 : 给 定 一 个 数据 集 , 所 有 实例 都 由 一 组 属性 来 描述 ,每 个 实例 仅 属于 一 个 
类 别 , 在 给 定数 据 集 上 运行 可 以 学 习 得 到 一 个 从 属性 值 到 类 别 的 映射 ,进而 可 使 用 该 映射 
对 新 的 未 知 实例 进行 分 类 ,这 种 映射 又 称 为 模型 或 分 类 器 (classifer) 。 在 数据 挖掘 社区 艇 
选 出 的 十 大 算法 中 六 个 都 是 这 类 方法 ,这 也 反映 出 此 类 方法 在 数据 挖掘 中 被 使 用 的 广泛 
程度 。 最 早 这 类 算法 只 能 处 理 标 称 类 别 数据 ,如 今 已 扩展 到 支持 数值 ,符号 乃至 混合 型 的 
数据 类 型 。 具 体 的 应 用 领域 也 很 广泛 ,例如 临床 决策 ,生产 制造 ,文档 分 析 、 生 物 信 息 学 、 
空间 数据 建 模 (地 理 信息 系统 ) 等 。 

本 章 从 介绍 分 类 的 基本 概念 (5. 1 节 ) 开 始 , 其 后 ,将 学 习 数 据 分 类 分 析 的 基本 技术 ， 
包括 最 常用 的 决策 树 分 类 器 的 构建 方法 (5. 2 节 ), 基 于 概率 统计 思想 的 贝 叶 斯 分 类 算法 
(5. 3 节 ), 具 有 统计 学 习 理论 坚实 基础 的 ,在 所 有 知名 的 数据 挖掘 算法 中 最 健壮 、 最 准确 
的 支持 向 量 机 (Support Vector Machine) 算 法 (5.4 节 ), 以 及 通过 构建 一 组 基于 学 习 器 进 
行 集成 学 习 的 Adaboost 算法 (5.7 节 ), 最 后 通过 使 用 Python 语言 给 出 了 一 个 具体 案例 ， 
使 读者 能 够 熟悉 数据 分 类 分 析 的 整个 过 程 。 


51 基本 概念 和 术语 


本 节 给 出 分 类 分 析 相 关 的 基本 概念 及 其 基本 术语 ,为 读者 研究 分 类 分 析 建 立 基础 。 
5.1.1 节 通过 一 个 描述 性 模型 介绍 分 类 中 的 有 关 定义 。5. 1. 2 节 介绍 分 类 的 方法 ,并 对 相 
关 的 术语 做 出 了 解释 。 


5.1.1 数据 分 类 


分 类 任务 就 是 通过 学 习 得 到 一 个 目标 函数 (target function) f WEAR EE z 映射 
到 一 个 预先 定义 的 类 标号 y。 

目标 函数 也 称 分 类 模型 (classfication model) 。 分 类 模型 可 以 用 于 以 下 目的 。 

(1) 描述 性 建 模 。 分 类 模型 可 以 作为 解释 性 工具 ,用 于 区 分 不 同类 中 的 对 象 。 例 如 ， 
对 于 生物 学 家 或 者 其 他 人 ,一 个 描述 性 模型 有 助 于 概括 表 5-1 中 的 数据 ,并 说 明 哪 些 特征 
决定 一 种 桨 椎 动物 是 哺乳 类 、 仆 行 类 、 乌 类 、 鱼 类 或 者 两 栖 类 。 
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表 5-1 EAHA E 


















































名 称 体温 | 表皮 覆盖 | ”胎生 | 水 生动 物 | 飞行 动物 | AB 冬眠 类 标号 
人 类 人 恒温 毛发 是 s 否 是 B 哺乳 类 
蟒蛇 冷血 鳞片 否 否 否 否 是 LATEN 
Efa 冷血 鳞片 否 是 否 否 否 鱼 类 
fi 恒温 毛发 是 是 是 & 否 哺乳 类 
青蛙 冷血 无 否 半 否 是 是 两 栖 类 
E 冷血 鳞片 否 否 否 是 B METAS 
蝙蝠 恒温 毛发 是 否 是 是 是 哺乳 类 
F 恒温 羽毛 B 是 是 是 B 鸟 类 
猫 恒温 软 毛 是 否 B 是 B 哺乳 类 
Nee | ”冷血 鳞片 是 是 B 否 B 鱼 类 
海龟 冷血 鳞片 B 半 B 是 否 META 
企鹅 恒温 WE B 半 T 是 B BX 
豪猪 恒温 刚毛 是 否 B 是 是 哺乳 类 
鲁 冷血 鳞片 B 是 B B 否 BK 
We ME 冷血 无 B 半 B 是 是 两 栖 类 


























(2) 预测 性 建 模 。 分 类 模型 还 可 以 用 于 预测 未 知 记录 的 类 标号 。 如 图 5-1 所 示 ,分 
类 模型 可 以 看 作 是 一 个 黑箱 , 当 给 定 未 知 记录 的 属性 集 上 的 值 时 , 它 自 动 地 赋予 未 知 样本 
类 标号 。 





HARER > | 分 类 模型 | > 输入 类 标号 0) 











图 5-1 分 类 器 的 任务 是 根据 输入 属性 集 z 确定 类 标号 y 


例如 ,假设 有 一 种 叫做 毒 蜥 的 生物 ,其 特征 如 表 5-2 所 示 。 

表 5-2 毒 晰 的 特征 数据 
名 称 | 体温 | 表皮 覆盖 | 胎生 | 水 生动 物 | 飞行 动物 | 有 腿 冬眠 | 类 标号 
毒 蜥 | 冷血 鳞片 a 否 a 是 是 ? 



































可 以 根据 表 5-1 中 的 数据 集 建立 的 分 类 模型 来 确定 该 生物 所 属 的 类 。 

假设 销售 经 理 希 望 预测 一 位 给 定 的 顾客 一 次 购物 将 花 多 少 钱 ,这 个 数据 分 析 任务 就 
是 数值 预测 (numeric prediction) 的 一 个 例子 ,其 中 所 构造 的 模型 预测 一 个 连续 值 函数 或 
有 序 值 而 不 是 类 标号 。 这 种 模型 是 预测 器 (predictor) 。 回 归 分 析 (regression analysis) 是 
数值 预测 最 常用 的 统计 方法 ,因此 这 两 个 术语 常常 作为 同义词 使 用 ,尽管 还 存在 其 他 数值 
预测 方法 。 分 类 和 数值 预测 是 预测 问题 的 两 种 主要 类 型 。 
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5.1.2 解决 分 类 问题 的 一 般 方法 


分 类 技术 (或 分 类 法 ) 是 一 种 根据 输入 数据 集 建立 分 类 模型 的 系统 方法 。 分 类 法 包括 
决策 树 分 类 法 、 基 于 规则 的 分 类 法 、 神 经 网 络 、 支 持 向 量 机 和 朴素 贝 叶 斯 分 类 法 。 这 些 技 
术 都 使 用 一 种 学 习 算 法 (learning algorithm) 确 定 分 类 模型 ,该 模型 能 够 很 好 地 拟 合 输 入 
数据 中 类 标号 和 属性 集 之 间 的 联系 。 学 习 算 法 得 到 的 模型 不 仅 要 很 好 地 拟 合 输 入 数据 ， 
还 要 能 够 正确 地 预测 未 知 样本 的 类 标号 。 因 此 ,训练 算法 的 主要 目标 就 是 建立 具有 很 好 
的 泛 化 能 力 的 模型 , 即 建立 能 够 准确 地 预测 未 知 样本 类 标号 的 模型 。 

图 5-2 展示 了 解决 分 类 问题 的 一 般 方法 。 首 先 , 需 要 一 个 训练 集 (training set). € H 
类 标号 已 知 的 记录 组 成 。 使 用 训练 集 建立 分 类 模型 ,该 模型 随后 将 运用 于 检验 集 (test 
set) ,检验 集 由 类 标号 未 知 的 记录 组 成 。 


训练 集 
Tid | 属性 1 | 属性 2 | 属性 3 | 类 
1 Yes Large 125K | No 
2 No | Medium} 100K | No 
3 | No | Smat | 70K | No 学 习 算法 
4 Yes | Medium} 120K | No 
> No Large 95K | Yes 
6 
7 
8 
9 






































No | Medium | 60K [No] YX aaa 
学 习 


Yes Large 220K | No 
No | Small | 85K | Yes 
No | Medium | 75K | No 
10 No | Small 90K | Yes 模型 




















检验 集 
Tid | 属性 1 | 属性 2 | 属性 3 
I No Small SSK 
12 Yes | Medium | 80K 
13 Yes Large 110K 
14 No Small 95K 


图 5-2 建立 分 类 模型 的 一 般 方 法 














EL 


























~| | ~ | o foe 


由 于 提供 了 每 个 训练 元 组 的 类 标号 ,这 一 阶段 也 称 为 监督 学 习 (supervised learning, 
即 分 类 器 的 学 习 在 被 告知 每 个 训练 元 组 属于 哪个 类 的 “监督 ”下 进行 的 )。 无 监督 学 习 
(unsupervised learning, 或 称 聚 类 ) 则 不 同 ,每 个 训练 元 组 的 类 标号 是 未 知 的 ,并 且 要 学 习 
的 类 的 个 数 或 集合 也 可 能 事先 不 知道 。 例 如 ,如 果 没 有 用 于 训练 集 的 数据 , 则 可 以 使 用 聚 
类 尝试 确定 “相似 元 组 的 组 群 ”。 

分 类 过 程 的 学 习 模型 也 可 以 看 作 是 学 习 一 个 映射 或 函数 y 二 A(X), 它 可 以 预测 给 定 
元 组 的 类 标号 y。 在 这 种 观点 下 ,我 们 希望 学习 把 数据 类 分 开 的 映射 或 函数 。 在 典型 
情况 下 ,该 映射 用 分 类 规则 ,决策 树 或 数学 公式 的 形式 提供 。 


ARBRHBARH A 


在 应 用 模型 阶段 ,使 用 模型 进行 分 类 ,首先 要 评估 分 类 器 的 预测 准确 率 。 如 果 使 用 训 
练 集 来 衡量 分 类 器 的 准确 率 , 则 评估 可 能 是 乐观 的 ,因为 分 类 器 趋向 于 过 分 拟 合 Coverfit) 
该 数据 ( 即 在 学 习 期 间 , 它 可 能 包含 了 训练 数据 中 的 某 些 特定 的 异常 ,这 些 异常 不 在 一 般 
数据 集中 出 现 )。 因 此 ,需要 使 用 由 检验 元 组 和 与 它们 相关 联 的 类 标号 组 成 的 检验 集 , 它 
们 独立 于 训练 元 组 , 即 不 使 用 它们 构造 分 类 器 。 

分 类 器 在 给 定 检验 集 上 的 准确 率 (accuracy) 是 分 类 器 正确 分 类 的 检验 元 组 所 占 的 百 
分 比 。 每 个 检验 元 组 的 类 标号 与 学 习 模 型 对 该 元 组 的 类 预测 进行 比较 。 如 果 认 为 分 类 器 
的 准确 率 是 可 以 接受 的 ,那么 就 可 以 用 它 对 类 标号 未 知 的 数据 元 组 进行 分 类 (这 种 数据 在 
机 器 学 习 中 也 称 为 “未 知 的 ”或 “先前 未 见 到 的 ”数据 )。 


52 决策 树 算法 


本 节 介 绍 决策 树 分 类 法 ,这 是 一 种 简单 但 广泛 使 用 的 分 类 技术 。 在 5. 2. 1 节 通 过 案 
例 对 决策 树 归纳 过 程 进行 介绍 。 决 策 树 的 建立 过 程 在 5. 2. 2 节 给 出 。5. 2.3 节 和 5.2.4 
节 分 别 给 出 了 属性 测试 条 件 的 方法 和 选择 最 佳 划 分 的 度量 的 方法 。5. 2. 5 节 给 出 决策 树 
归纳 算法 。 树 剪 枝 的 概念 在 5. 2. 6 节 介绍 。5. 2.7 节 对 决策 树 归纳 的 特点 做 了 总 结 。 


5.2.1 决策 树 归 纳 


决策 树 归纳 是 从 有 类 标号 的 训练 元 组 中 学 习 决 策 树 。 决 策 树 (decision tree) 是 一 种 
类 似 于 流程 图 的 树 结构 ,其 中 ,每 个 内 部 节点 Cinternal node, 即 非 树 叶 节 点 ) 表 示 在 一 个 
属性 上 的 测试 ,每 个 分 枝 代表 该 测试 的 一 个 输出 ,而 每 个 树叶 节点 (leaf node) (或 终端 节 
点 ) 存 放 一 个 类 标号 。 树 的 最 顶层 节点 是 根 节点 (root node)。 叶 节点 用 和 矩形 表示 ,而 内 
部 节点 和 根 节点 用 椭圆 表示 。 有 些 决 策 树 算法 只 产生 二 又 树 ,而 另 一 些 决策 树 算法 可 能 
产生 非 二 又 的 树 。 例 如 ,在 图 5-3 中 ,在 根 节 点 处 ,使 用 体温 这 个 属性 把 冷血 峭 椎 动物 和 
恒温 咨 椎 动物 区 别 开 来 。 因 为 所 有 的 冷血 次 椎 动物 都 是 非 哺 乳 动物 ,所 以 用 一 个 类 标号 
为 “ 非 哺乳 动物 ”的 叶 节 点 作为 根 节点 的 右 孩 子 。 如 果 次 椎 动 物 的 体温 是 恒温 的 , 则 接 下 
来 用 “胎生 ”这 个 属性 来 区 分 哺乳 动物 与 其 他 恒温 动物 。 




















[哺乳 动物 qaan 
图 5-3 ”哺乳 动物 分 类 问题 的 决策 树 
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给 定 一 个 类 标号 未 知 的 元 组 X ,在 决策 树 上 测试 该 元 组 的 属性 值 。 跟 踪 一 条 由 根 到 
叶 节 点 的 路 径 , 该 叶 节点 就 存放 着 该 元 组 的 类 预测 。 决 策 树 容易 转换 成 分 类 规则 。 

决策 树 分 类 器 的 构造 不 需要 任何 领域 知识 或 参数 设置 ,因此 适合 于 探测 式 知识 发 现 。 
决策 树 可 以 处 理 高 维 数据 。 获 取 的 知识 用 树 的 形式 表示 是 直观 的 ,并 且 容 易 被 人 理解 。 
决策 树 归纳 的 学 习 和 分 类 步骤 是 简单 和 快速 的 。 一 般 而 言 ,决策 树 分 类 器 具有 很 高 的 准 
确 率 。 然 而 ,成 功 的 使 用 可 能 依赖 手头 的 数据 。 决 策 树 归纳 算法 已 经 成 功 地 应 用 于 许多 
领域 的 分 类 ,如 医学 制造 和 生产 ,金融 分 析 、 天 文学 和 分 子 生物 学 。 决 策 树 是 许多 商业 规 
则 归纳 系统 的 基础 。 

一 旦 构造 了 决策 树 , 对 检验 记录 进行 分 类 就 相当 容易 了 。 从 树 的 根 节点 开始 ,将 测试 
条 件 用 于 检验 记录 ,根据 测试 结果 选择 适当 的 分 枝 。 沿 着 该 分 枝 或 者 到 达 另 一 个 内 部 节 
点 ,使 用 新 的 测试 条 件 , 或 者 到 达 一 个 叶 节点 。 到 达 叶 节点 之 后 , 叶 节 点 的 类 标号 就 被 赋 
值 给 该 检验 记录 。 例 如 ,图 5-4 显示 了 应 用 决策 树 预测 火 烈 鸟 的 类 标号 所 经 过 的 路 径 ,路 
径 终 止 于 类 标号 为 “ 非 哺 乳 动物 ”的 叶 节 点 。 虚 线 表示 在 未 标记 的 桨 椎 动物 上 使 用 各 种 属 
性 测试 条 件 的 结果 ,该 消 椎 动物 最 终 被 指派 到 非 哺乳 动物 类 。 


名 字 | 体温 | 胎生 | … | 类 标号 
KAS | 恒温 | 否 a ? 

































非 哺乳 动物 














哺乳 动物 非 哺乳 动物 22 hee san 
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5.2.2 决策 树 构建 


原则 上 讲 , 对 于 给 定 的 属性 集 , 可 以 构造 的 决策 树 的 数目 达 指 数 级 。 尽 管 某 些 决 策 树 
比 其 他 决策 树 更 准确 ,但 是 由 于 搜索 空间 是 指数 规模 的 , 找 出 最 佳 决策 树 在 计算 上 是 不 可 
行 的 。 尽 管 如 此 ,人 们 还 是 开发 了 一 些 有 效 的 算法 ,能 够 在 合理 的 时 间 内 构造 出 具有 一 定 
准确 率 的 次 最 优 决策 树 。 这 些 算法 通常 都 采用 贪心 策略 ( 即 非 回溯 的 ) ,在 选择 划分 数据 
的 属性 时 ,采取 一 系列 局 部 最 优 决策 来 构造 决策 树 , Hunt 算法 就 是 一 种 这 样 的 算法 。 
Hunt 算法 是 许多 决策 树 算法 的 基础 ,包括 ID3、C4.5 和 CART。 

在 Hunt 算法 中 ,通常 将 训练 记录 相继 划分 成 较 纯 的 子 集 , 以 递归 方式 建立 决策 树 。 
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设 D, 是 与 节点 上 相关 联 的 训练 记录 集 , 而 y 二 {yi1,y:，…，ye} 是 类 标号 , Hunt 算法 的 递归 
定义 如 下 : 

CL) 如 果 D, 中 所 有 记录 都 属于 同一 个 类 y,, 则 + 是 叶 节 点 ,用 y, 标 记 。 

(2) 如 果 D, 中 包含 属于 多 个 类 的 记录 , 则 选择 一 个 属性 测试 条 件 (attribute test 
condition) ,将 记录 划分 成 较 小 的 子 集 。 对 于 测试 条 件 的 每 个 输出 ,创建 一 个 子女 节点 ,并 
根据 测试 结果 将 D, 中 的 记录 发 布 到 子女 节点 中 。 然 后 ,对 于 每 个 子女 节点 ,递归 地 调用 
该 算法 。 

为 了 解释 该 算法 如 何 执行 ,考虑 如 下 问题 : 预测 贷款 申请 者 是 会 按时 归还 贷款 还 是 
会 拖欠 贷款 。 对 于 这 个 问题 ,训练 数据 集 可 以 通过 考察 以 前 贷款 者 的 贷款 记录 来 构造 。 
在 表 5-3 所 示 的 例子 中 ,每 条 记录 都 包含 贷款 者 的 个 人 信息 以 及 贷款 者 是 否 拖欠 贷款 的 
类 标号 。 


表 5-3 训练 数据 集 : 预测 拖欠 银行 贷款 的 贷款 者 
































Tid 有 房 者 婚姻 状况 年 收入 拖欠 贷款 者 
1 是 单身 125k 否 
2 否 已 婚 100k 否 
3 否 单身 70k 否 
4 是 已 婚 120k 否 
5 否 离异 95k 是 
6 否 已 婚 60k 否 
7 是 离异 220k 否 
8 否 单身 85k 是 
9 否 已 婚 75k 否 
10 a 单身 90k 是 














该 分 类 问题 的 初始 决策 树 只 有 一 个 节点 ,类 标号 为 “拖欠 贷款 者 一 否 ”( 见 图 5-5(a))， 
意味 着 大 多 数 贷款 者 都 按时 归还 贷款 。 然 而 ,该 树 需要 进一步 的 细 化 ,因为 根 节点 包含 两 
个 类 的 记录 。 根 据 “ 有 房 者 ”测试 条 件 , 这 些 记录 被 划分 为 较 小 的 子 集 , 如 图 5-5(b) 所 示 。 
选取 属性 测试 条 件 的 理由 稍 后 讨论 ,目前 ,假定 此 处 这 样 选 是 划分 数据 的 最 优选 择 。 接 下 
来 ,对 根 节点 的 每 个 子女 递归 地 调用 Hunt 算法 。 从 表 5-3 给 出 的 训练 数据 集 可 以 看 出 ， 
有 房 的 贷款 者 都 按时 偿还 了 贷款 ,因此 , 根 节 点 的 左 子 女 为 叶 节 点 ,标记 为 “拖欠 贷款 者 一 
否 ”( 见 图 5-5(b)) 。 对 于 右 子 女 ,需要 继续 递归 调用 Hunt 算法 ,直到 所 有 的 记录 都 属于 
同一 个 类 为 止 。 每 次 递归 调用 所 形成 的 决策 树 显 示 在 图 5-5(c) 和 图 5-5(d) 中 。 

如 果 属 性 值 的 每 种 组 合 都 在 训练 数据 中 出 现 ,并 且 每 种 组 合 都 具有 唯一 的 类 标号 ， 
则 Hunt 算法 是 有 效 的 ,但 是 对 于 大 多 数 实际 情况 ,这些 假 设 太 苛刻 了 ,因此 ,需要 附加 的 
条 件 来 处 理 以 下 的 情况 。 

(1) 算法 的 第 二 步 ( 图 5-5(b)) 所 创建 的 子女 节点 可 能 为 空 , 即 不 存在 与 这 些 节点 相 
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拖欠 贷款 者 = 否 拖欠 贷款 者 = 否 拖欠 贷款 者 = 否 


























(a) 第 一 步 (b) 第 二 步 










拖欠 贷款 者 = 否 





















拖欠 贷款 者 - 否 








婚姻 状况 拖欠 贷款 者 - 否 




















拖欠 贷款 者 = 是 拖欠 贷款 者 = 否 拖欠 贷款 者 = 否 拖欠 贷款 者 =- 否 


























(c) 第 三 步 (d) 第 四 步 
图 5-5 Hunt 算 法 构造 决策 树 


关联 的 记录 。 如 果 没 有 一 个 训练 记录 包含 与 这 样 的 节点 相关 联 的 属性 值 组 合 ,这 种 情形 
就 可 能 发 生 。 这 时 ,该 节点 成 为 叶 节点 ,类 标号 为 其 父 节点 上 训练 记录 中 的 多 数 类 。 

(2) 在 第 二 步 , 如 果 与 相关 联 的 所 有 记录 都 具有 相同 的 属性 值 ( 目 标 属性 除外 ), 则 不 
可 能 进一步 划分 这 些 记 录 。 在 这 种 情况 下 ,该 节点 为 叶 节点 ,其 标号 为 与 该 节点 相关 联 的 
训练 记录 中 的 多 数 类 。 

决策 树 归纳 的 学 习 算 法 必须 解决 下 面 两 个 问题 。 

(1) 如 何 分 裂 训练 记录 ? 树 增长 过 程 的 每 个 递归 步 都 必须 选择 一 个 属性 测试 条 件 ， 
将 记录 划分 成 较 小 的 子 集 。 为 了 实现 这 个 步骤 ,算法 必须 提供 为 不 同类 型 的 属性 指定 测 
试 条 件 的 方法 ,并 且 提供 每 个 测试 条 件 的 客观 度量 。 

(2) 如 何 停止 分 裂 过 程 ? 需要 有 结束 条 件 , 以 终止 决策 树 的 生长 过 程 。 一 个 可 能 的 
策略 是 分 裂 节点 ,直到 所 有 的 记录 都 属于 同一 个 类 ,或 者 所 有 的 记录 都 具有 相同 的 属性 
值 。 尽 管 每 个 结束 条 件 对 于 结束 决策 树 归 纳 算法 都 是 充分 的 ,但 是 还 可 以 使 用 其 他 的 标 
准 提前 终止 树 的 生长 过 程 。 


5.2.3 属性 测试 条 件 的 表示 方法 
决策 树 归 纳 算法 必须 为 不 同类 型 的 属性 提供 表示 属性 测试 条 件 和 其 对 应 输出 的 
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方法 。 
(1) 二 元 属性 。 二 元 属性 的 测试 条 件 产生 两 个 可 能 的 输出 ,如 图 5-6 所 示 。 
(2) 标 称 属性 。 由 于 标 称 属性 有 多 个 属性 值 , 它 的 测试 
条 件 可 以 用 两 种 方法 表示 ,如 图 5-7 所 示 。 对 于 多 路 划分 体温 
(图 5-7(a) ) ,其 输出 数 取决 于 该 属性 不 同属 性 值 的 个 数 。 例 
如 ,如 果 属 性 婚姻 状况 有 3 个 不 同 的 属性 值 一 单身 .已 婚 、 
离异 , 则 它 的 测试 条 件 就 会 产生 一 个 三 路 划分 。 另 一 方面 ， 恒温 冷血 
某 些 决策 树 算法 (如 CART) 只 产生 二 元 划分 ,它们 考虑 创建 图 56 二 元 属性 的 测试 条 件 
& 个 属性 值 的 二 元 划分 的 所 有 2 后 :一 1 种 方法 。 图 5-7(b) 显 
示 了 把 婚姻 状况 的 属性 值 划分 为 两 个 子 集 的 3 种 不 同 的 分 组 方法 。 


婚姻 状况 


单身 离异 已 婚 
(a) 多 路 划分 


婚姻 状况 婚姻 状况 婚姻 状况 


{已 婚 } F ON) {已 婚 ， 离异 } {单身 ， 已 婚 } {离异 } 
(b) 二 元 划分 (通过 属性 值 分 组 ) 
图 5-7 标 称 属性 的 测试 条 件 


(3) 序 值 属性 。 序 值 属 性 也 可 以 产生 二 元 或 多 路 划分 ,只 要 不 违背 序 值 属性 值 的 有 
序 性 ,就 可 以 对 属性 值 进行 分 组 。 图 5-8 显示 了 按照 属性 衬衣 尺码 划分 训练 记录 的 不 同 
的 方法 。 图 5-8(a) 和 图 5-8(b) 中 的 分 组 保持 了 属性 值 间 的 序 关系 ,而 图 5-8(c) 所 示 的 分 
组 则 违反 了 这 一 性 质 ,因为 它 把 小 号 和 大 号 分 为 一 组 ,把 中 号 和 加 大 号 放 在 男 一 组 。 


{小 号 ， 中 号 } {大 号 ， 加 大 号 } {小 号 } {中 号 ， 加 大 号 } Obs. AS} {中 号 ， 加 大 号 } 
(a) 分 组 方式 1 (b) 分 组 方式 2 (c) 分 组 方式 3 
图 5-8 序 值 属性 分 组 的 不 同方 式 











(4) 连续 属性 。 对 于 连续 属性 来 说 ,测试 条 件 可 以 是 具有 二 元 输出 的 比较 测试 (A 二 
vC) ,也 可 以 是 具有 形 如 vw 志 A 过 vini (i 一 1,2,…,n) 输 出 的 范围 查询 。 图 5-9 显 
示 了 这 些 方法 的 差别 。 对 于 二 元 划分 ,决策 树 算法 必须 考虑 所 有 可 能 的 划分 点 v, 并 从 中 
选择 产生 最 佳 划 分 的 点 。 
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年 收入 Ctr) 
>80k 


(10k, 25k} {25k, 50k} {50k, 70k} 
(a) (b) 
图 5-9 连续 属性 的 测试 条 件 


对 于 多 路 划分 ,算法 必须 考虑 所 有 可 能 的 连续 值 区 间 。 可 以 采用 离散 化 的 策略 ,离散 
化 之 后 ,每 个 离散 化 区 间 赋 予 一 个 新 的 序数 值 , 只 要 保持 有 序 性 , 相 邻 的 值 还 可 以 聚集 成 
较 宽 的 区 间 。 


s.2.4 选择 最 佳 划分 的 度量 


有 很 多 度量 可 以 用 来 确定 划分 记录 的 最 佳 方法 ,这 些 度 量 用 划分 前 和 划分 后 记录 的 
类 分 布 定义 。 

设 p(ilt) 表 示 给 定 节点 1 中 属于 类 i 的 记录 所 占 的 比例 ,有 了 时, 省略 节点 1, 直接 用 p: 
表示 该 比例 。 在 二 元 分 类 问题 中 ,任意 节点 的 类 分 布 都 可 以 记 作 (po,p1), 其 中 py = 1 — 
po。 例 如 ,考虑 图 5-10 中 的 测试 条 件 , 划 分 前 的 类 分 布 是 (0. 5,0. 5), 因 为 来 自 每 个 类 的 
记录 数 相等 。 如 果 使 用 性 别 属性 来 划分 数据 , 则 子女 节点 的 类 分 布 分 别 为 (0. 6,0. 4) 和 
(0. 4,0. 6) ,虽然 划分 后 两 个 类 的 分 布 不 再 平衡 ,但 是 子女 节点 仍然 包含 两 个 类 的 记录 ; 按 
照 第 二 个 属性 车 型 进行 划分 ,将 得 到 纯度 更 高 的 划分 。 

































































男 
6 C0: 4 1 1 C0: 1 0: 1 0:0 
Cl: 4 C1:6 Cl:0 Cl:0 Cl:l Cl:1 
(a) (b) (c) 


图 5-10 多 路 划分 与 二 元 划分 


选择 最 佳 划分 的 度量 通常 是 根据 划分 后 子女 节点 不 纯 的 程度 。 不 纯 的 程度 越 低 ,类 
分 布 就 越 倾斜 。 例 如 ,类 分 布 为 (0.1) 的 节点 具有 零 不 纯 性 ,而 均衡 分 布 (0.5,0.5) 的 节点 
具有 最 高 的 不 纯 性 。 不 纯 性 度量 的 例子 如 下 : 


Entropy) =— >) pG | Dlog pG | D (5-1) 
imo 
el 
Gini() =1— D [GIDE (5-2) 
‘=o 
Error(t) = 1—max[ pi iai (5-3) 


Hp c EAN TB EA EAR, Odog:0)=0. 
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图 5-11 显示 了 二 元 分 类 问题 不 纯 性 度量 值 的 比较 ,p 表示 属于 其 中 一 个 类 的 记录 所 
占 的 比例 。 从 图 中 可 以 看 出 ,3 种 方法 都 在 类 分 布 均衡 时 ( 即 当 p 王 0.5 时 ) 达 到 最 大 值 ， 
而 当 所 有 记录 都 属于 同一 个 类 时 (p 等 于 1 或 0) 达 到 最 小 值 。 下 面 给 出 3 种 不 纯 性 度量 
方法 的 计算 实例 。 






































节点 Ni 计数 Gini= 1—(0/6)* — (6/6)? =0 
类 =0 0 Entropy= — (0/6)log; (0/6) — (6/6) log, (6/6)=0 
#=1 6 Error=1—max[0/6,6/6]=0 

节点 N。 计数 Gini= 1— (1/6)? — (5/6)? =0, 278 
%=0 1 Entropy= — (1/6) log: (1/6) — (5/6) log. (5/6) =0. 650 
类 =1 5 Error=1—max[1/6,5/6]=0.167 

节点 Ns 计数 Gini=1— (3/6)? — (3/6)? =0. 5 
类 =0 3 Entropy 一 一 (3/6)log: (3/6) 一 (3/6)log:(3/6) 一 1 
类 =1 3 Error=1— max[3/6,3/6]=0. 5 











从 上 面 的 例子 及 图 5-11 可 以 看 出 ,不 同 的 不 纯 性 度量 是 一 致 的 。 根 据 计 算 ,节点 Ni 
具有 最 低 的 不 纯 性 度量 值 , 接 下 来 依次 是 No Ns 。 虽 然 结 果 是 一 致 的 ,但 是 作为 测试 条 
件 的 属性 选择 仍然 因 不 纯 性 度量 的 选择 而 异 。 

1 


0.9 
os Entropy (fii) 
0.7 


0.6 





0 ol 02 03 04 05 06 07 08 09 1 
图 5-11 二 元 分 类 问题 不 纯 性 度量 之 间 的 比较 
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为 了 确定 测试 条 件 的 效果 ,需要 比较 父 节点 (划分 前 ) 的 不 纯 程 度 和 子女 节点 (划分 
后 ) 的 不 纯 程 度 , 它 们 的 差 越 大 ,测试 条 件 的 效果 就 越 好 。 增 益 A 是 一 种 可 以 用 来 确定 划 
分 效果 的 标准 : 


k 
A= I(parent) — >} NWT) (5-4) 
j=1 


其 中 ,IT(parent) 是 给 定 节点 的 不 纯 性 度量 ,NN 是 父 节点 上 的 记录 总 数 ,k 是 属性 值 的 个 
数 ,N(v;) 是 与 子女 节点 vj 相关 联 的 记录 个 数 。 决 策 树 归纳 算法 通常 选择 最 大 化 增益 A 
的 测试 条 件 , 因 为 对 所 有 的 测试 条 件 来 说 ,I(parent) 是 一 个 不 变 的 值 ,所 以 最 大 化 增益 等 
价 于 最 小 化 子女 节点 的 不 纯 性 度量 的 加 权 平 均值 。 最 后 , “4 HE FE HY (Entropy) 作为 
式 (5-4) 的 不 纯 性 度量 时 , 炉 的 差 就 是 所 谓 信 息 增益 (information gain) ,用 Aiw 表 示 。 


1. 二 元 属性 的 划分 


考虑 图 5-12 中 的 图 表 ,假设 有 两 种 方法 将 数据 划分 成 较 小 的 子 集 。 划 分 前 ,Gini 指 
标 等 于 0. 5, 因 为 属于 两 个 类 的 记录 个 数 相等 。 如 果 选 择 属性 A 划分 数据 ,节点 Ni 的 
Gini 指标 等 于 0. 4898, 而 No 的 Gini 指标 等 于 0. 480, 派 生 节 点 的 Gini 指标 的 加 权 平 均 
为 (7/12)X0.4898 十 (5/12)X0.480 二 0.486。 类 似 地 ,可 以 计算 出 属性 B 的 Gini 指标 加 
权 平 均 是 0. 371。 因 为 属性 B 具有 更 小 的 Gini 指标 , 它 比 属性 A 更 可 取 。 



























































是 否 
节点 Ni 节点 N: 
N, N, N, N, 
co 4 2 co 1 
ci | 3 3 ci| 4 2 
Gini=0.486 Gini=0.371 





























图 5-12 划分 二 元 属性 


2. 标 称 属性 的 划分 


正如 前 面 强调 的 , 标 称 属 性 可 以 产生 二 元 划分 或 多 路 划分 ,如 图 5-13 所 示 。 二 元 划 
分 的 Gini 指标 的 计算 与 二 元 属性 类 似 。 对 于 车 型 属性 第 一 种 二 元 分 组 ,{ 运 动 ,豪华 } 的 
Gini 指标 是 0. 4922 ,而 { 家 用 } 的 Gini 指标 是 0. 3750。 该 分 组 的 Gini 指标 加 权 平 均 是 

16/20X0. 4922+4/20 X0. 3750 一 0. 468 
类 似 地 ,对 第 二 种 二 元 分 组 {运动 ;和 {家 用 ,豪华 } ,Gini 指标 加 权 平 均 是 0.167。 第 
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{ 运 动 ， 豪 华 } {家 用 }) 。 RA. REY {运动 } {家 用 } {豪华 } 
{运动 } 
车 型 车 型 车 型 
fea), EA | RAD aan | GH RH (RD) Gea || 
co 9 1 co 8 2 co 1 8 1 
cl 7 3 cl 0 10 cl 3 0 7 
Gini 0.468 Gini 0.167 Gini 0.163 
































图 5-13 划分 标 称 属性 


二 种 分 组 的 Gini 指标 值 相 对 较 低 ,因为 其 对 应 的 子 集 的 纯度 高 得 多 。 
对 于 多 路 划分 ,需要 计算 每 个 属性 值 的 Gini 指标 。Gini({ 家 用 }) 二 0. 375,Gini({ 运 
动 }) =0.Gini({ EAE} ) =0. 219, 多 路 划分 的 总 Gini 指标 为 
4/20 X0. 375+8/20X0+8/20X0. 219=0. 163 
多 路 划分 的 Gini 指标 比 两 个 二 元 划分 都 小 。 这 一 结果 并 不 奇怪 ,因为 二 元 划分 实际 上 合 
并 了 多 路 划分 的 某 些 输出 ,自然 降低 了 子 集 的 纯度 。 


3. 连续 属性 的 划分 


考虑 图 5-14 的 例子 ,其 中 测试 条 件 “ 年 收入 三 y” 用 来 划分 拖欠 贷款 分 类 问题 的 训练 
记录 。 用 穷 举 方法 确定 v 的 值 ,将 N 个 记录 中 所 有 的 属性 值 都 作为 候选 划分 点 。 对 每 个 
候选 v 都 要 扫描 一 次 数据 集 ,统计 年 收入 大 于 v 和 小 于 等 于 vw 的 记录 数 ,然后 计算 每 个 候 
选 的 Gini 指标 ,并 从 中 选择 具有 最 小 值 的 候选 划分 点 。 这 种 方法 的 计算 代价 是 昂贵 的 ， 
因为 对 每 个 候选 划分 点 计算 Gini 指标 需要 O(N) 次 操作 ,由 于 有 NN 个 候选 ,总 的 计算 复 
杂 度 为 OLN?)。 为 了 降低 计算 复杂 度 , 按 照 年 收入 将 训练 记录 排序 ,所 需要 的 时 间 为 
OCNlogN) ,从 两 个 相 邻 的 排 过 序 的 属性 值 中 选择 中 间 值 作为 候选 划分 点 ,得 到 候选 划分 
点 5565.72 等 。 无 论 如 何 , 与 穷 举 方法 不 同 , 在 计算 候选 划分 点 的 Gini 指标 时 ,不 需 考 
察 所 有 N 个 记录 。 












































No 1 )6/2 |5|/3 [4/3 [4/3 |413 1 二 | 和 |35 2/6 |17 |0 









































Gini 0.420 0.400 0.375 0.343 0.417 0.400 0.300 0.343 0.375 0.400 0.420 





5-14 连续 属性 的 划分 
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对 第 一 个 候选 v 一 55, 没 有 年 收入 小 于 或 等 于 55k 的 记录 ,所 以 年 收入 小 于 55k 的 派 
生 节 点 的 Gini 指标 是 0。 另 一 方面 ,年 收入 大 于 55k 的 样本 记录 数 为 3( 类 Yes) H 7( 类 
No) ,这 样 , 该 节点 的 Gini 指标 是 0. 420。 该 候选 划分 的 总 Gini 指标 为 0X0 十 1X 
0. 420 一 0. 420, 

对 第 二 个 候选 v 一 65 ,通过 更 新 上 一 个 候选 的 类 分 布 , 就 可 以 得 到 该 候选 的 类 分 布 。 
更 具体 地 说 ,新 的 分 布 通 过 考察 具有 最 低 年 收入 ( 即 60k) 的 记录 的 类 标号 得 到 。 因 为 该 
记录 的 类 标号 是 No, 所 以 类 No 的 数量 从 0 增加 到 1( 对 于 年 收入 三 65k), 和 从 7 降 到 6 
(对 于 年 收入 二 65k) ,类 Yes 的 分 布 保持 不 变 。 新 的 候选 划分 点 的 加 权 平 均 Gini 指标 为 
0. 400。 

重复 这 样 的 计算 ,直到 算出 所 有 候选 的 Gini 指标 值 ,如 图 5-14 所 示 。 最 佳 的 划分 点 
对 应 于 产生 最 小 Gini 指标 值 的 点 , 即 v 二 97。 该 过 程 代价 相对 较 低 , 因 为 更 新 每 个 候选 划 
分 点 的 类 分 布 所 需 的 时 间 是 一 个 常数 。 该 过 程 还 可 以 进一步 优化 : 仅 考虑 位 于 具有 不 同 
类 标号 的 两 个 相 邻 记录 之 间 的 候选 划分 点 。 例 如 ,因为 前 3 个 排序 后 的 记录 (年 收入 分 别 
为 60k、70k 和 75k) 具 有 相同 的 类 标号 ,所 以 最 佳 划分 点 肯定 不 会 在 60k 和 75k 之 间 , 因 
此 ,候选 划分 点 v= 二 55k,65k,72k,87k,92k,110k,122k,172k,230k 都 将 被 忽略 ,因为 它们 都 
位 于 具有 相同 类 标号 的 相 邻 记录 之 间 。 该 方法 使 得 候选 划分 点 的 个 数 从 11 个 降 到 2 个 。 


4. 增益 率 


HIA Gini 指标 等 不 纯 性 度量 趋向 有 利于 具有 大 量 不 同 值 的 属性 。 图 5-10 显示 了 3 
种 可 供 选 择 的 测试 条 件 , 划 分 本 章 习 题 第 7 题 中 的 数据 集 。 第 一 个 测试 条 件 “ 性 别 ” 与 第 
二 个 测试 条 件 “ 车 型 " 相 比 ,容易 看 出 “车 型 "似乎 提供 了 更 好 的 划分 数据 的 方法 ,因为 它 产 
生 更 纯 的 划分 ,但 “顾客 ID" 不 是 一 个 有 预测 性 的 属性 ,因为 每 个 样本 在 该 属性 上 的 值 都 
是 唯一 的 。 即 使 在 不 太极 端的 情形 下 ,也 不 会 希望 产生 大 量 输出 的 测试 条 件 ,因为 与 每 个 
划分 相关 联 的 记录 太 少 ,以 致 不 能 做 出 可 靠 的 预测 。 

解决 该 问题 的 策略 有 两 种 。 一 种 策略 是 限制 测试 条 件 只 能 是 二 元 划分 ,CART 这 样 
的 决策 树 算法 采用 的 就 是 这 种 策略 ; 另 一 种 策略 是 修改 评估 划分 的 标准 ,把 属性 测试 条 件 
产生 的 输出 数 也 考虑 进去 ,例如 ,决策 树 算 法 C4. 5 采用 称 作 增益 率 (gain ratio) 的 划分 标 
准 来 评估 划分 。 增 益 率 定义 如 下 : 


into 


Split. Info oy 


Gain_ratio = 





其 中 ,划分 信息 Split_Info =— >) P(uw)log:P(uw) ,而 4 是 划分 的 总 数 。 例 如 ,如 果 每 个 属 
i=1 


性 值 具有 相同 的 记录 数 , 则 Vi: P) = 1/k, 而 划分 信息 等 于 logsk。 这 说 明 如 果菜 个 属 
性 产生 了 大 量 的 划分 , 它 的 划分 信息 将 会 很 大 ,从 而 降低 了 增益 率 。 


5.2.5 决策 树 归 纳 算 法 
算法 5. 1 给 出 了 称 作 TreeGrowth 的 决策 树 归纳 算法 的 框架 。 该 算法 的 输入 是 训练 
记录 集 已 和 属性 集 下 。 算 法 递归 地 选择 最 优 的 属性 来 划分 数据 (步骤 7), 并 扩展 树 的 叶 
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节点 (步骤 11 和 步骤 12) ,直到 满足 结束 条 件 ( 步 又 1) 。 算 法 的 细节 如 下 : 

(1) 函数 createdNode( ) 为 决策 树 建立 新 的 节点 。 决 策 树 的 节点 或 者 是 一 个 测试 条 
件 , 记 作 node. test_cond, 或 者 是 一 个 类 标号 , 记 作 node. label. 

(2) 函数 find_best_split() 确 定 应 当选 择 哪 个 属性 作为 划分 训练 记录 的 测试 条 件 。 
如 前 所 述 ,测试 条 件 的 选择 取决 于 使 用 哪 种 不 纯 性 度量 来 评估 划分 ,一些 广泛 使 用 的 度量 
ELFER Gini 指标 和 x? 统计 量 。 

(3) 函数 classify() 为 叶 节 点 确定 类 标号 。 对 于 每 个 叶 节 点 1,p(il?) 表 示 该 节点 上 属 
于 类 i 的 训练 记录 所 占 的 比例 ,在 大 多 数 情况 下 ,都 将 叶 节 点 指派 到 具有 和 多数 记录 的 类 : 

leaf. label = arg maxpli D (5-6) 


其 中 ,操作 arg max 返回 最 大 值 pG| OWES RUA i. pG| ORR T Wie MT AR brs IT a BE 
的 信息 之 外 ,还 可 以 用 来 估计 分 配 到 叶 节 点 1 的 记录 属于 类 i 的 概率 。 

(4) 函数 stopping_cond() 检 查 是 否 所 有 的 记录 都 属于 同一 个 类 ,或 者 都 具有 相同 的 
属性 值 , 决 定 是 否 终止 决策 树 的 增长 。 终 止 递归 函数 的 另 一 种 方法 是 检查 记录 数 是 否 小 
于 某 个 最 小 闵 值 。 

算法 5-1 决策 树 归纳 算法 的 框架 

TreeGrowth(E,F) 

: if stopping_cond(E,F) = true then 
: leaf = createNode() 
: leaf. label = Classify(E) 


return leaf 


root = createNode() 
root. test_cond = find_best_split(E,F) 
: $ V={vlv Æ root. test_cond 的 一 个 可 能 的 输出 } 
: for 4+ vEV do 
10: E,={e/root. testone =v J H e € E} 
11; child = TreeGrowth(E, ,F) 
12: 将 child 作为 root 的 派生 节点 添加 到 树 中 ,并 将 边 (root->child) 标 记 为 v 
13: end for 
14: end if 


15; return root 


建立 决策 树 之 后 ,可 以 进行 树 剪 枝 (tree-pruning) ,以 减 小 决策 树 的 规模 。 决 策 树 过 
大 容易 受 所 谓 过 分 拟 合 (overfitting) 现 象 的 影响 。 通 过 修剪 初始 决策 树 的 分 枝 , 剪 枝 有 助 
于 提高 决策 树 的 泛 化 能 力 。 


5.2.6 BIHE 


在 决策 树 创建 时 ,由 于 数据 中 的 噪声 和 离 群 点 ,许多 分 枝 反 映 的 是 训练 数据 中 的 异 
常 。 剪 枝 方法 用 来 处 理 这 种 过 分 拟 合 数据 问题 。 通 常 ,这 种 方法 使 用 统计 度量 剪 掉 最 不 可 
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靠 的 分 枝 。 一 棵 未 剪 枝 的 树 和 它 剪 枝 后 的 版 本 显示 在 图 5-15 中 。 剪 枝 后 的 树 更 小 ,更 简 
单 ,因此 更 容易 理解 。 通 常 ,它们 在 正确 地 对 独立 的 检验 集 分 类 时 比 未 剪 枝 的 树 更 快 
更 好 。 
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图 5-15 ”一 棵 未 剪 枝 的 决策 树 和 它 剪 枝 后 的 版 本 


有 两 种 常用 的 剪 枝 方法 : 先 剪 枝 和 后 剪 枝 。 

在 先 剪 枝 (prepruning) 方 法 中 ,通过 提前 停止 树 的 构建 (例如 ,通过 决定 在 给 定 的 节 
点 不 再 分 裂 或 划分 训练 元 组 的 子 集 ) 而 对 树 剪 枝 。 一 旦 停止 ,节点 就 称 为 树叶 。 该 树叶 可 
以 持 有 子 集 元 组 中 最 频繁 的 类 或 这 些 元 组 的 概率 分 布 。 

在 构造 树 时 ,可 以 使 用 诸如 统计 显著 性 ,信息 增益 、Gini 指数 等 度量 来 评估 划分 的 优 
劣 。 如 果 划 分 一 个 节点 的 元 组 导致 低 于 预定 义 阅 值 的 划分 , 则 给 定子 集 的 进一步 划分 将 
停止 。 然 而 ,选取 一 个 适当 的 阅 值 是 困难 的 。 高 阅 值 可 能 导致 过 分 简化 的 树 ,而 低 阔 值 可 
能 使 得 树 的 简化 太 少 。 

后 前 枝 (postpruning) 是 更 常用 的 方法 。 它 由 “完全 生长 ”的 树 剪 去 子 树 , 通 过 删除 节 
点 的 分 枝 , 并 用 树叶 替换 它 而 剪 掉 给 定 节点 的 子 树 ,树叶 用 被 奉 换 的 子 树 中 最 频繁 的 类 标 
记 。 例 如 ,注意 图 5-15 中 未 剪 枝 树 的 节点 “As?” 的 子 树 。 假 设 该 子 树 中 最 频繁 的 类 是 “类 
B”, 在 剪 枝 的 版 本 中 ,该 子 树 被 剪 枝 , 用 树叶 “类 B” 替 换 。 

CART 使 用 的 代价 复杂 度 剪 枝 算法 是 后 剪 枝 方法 的 一 个 实例 。 该 方法 把 树 的 复杂 
度 看 做 树 中 树叶 节点 的 个 数 和 树 的 错误 率 的 函数 (其 中 ,错误 率 是 树 误 分 类 的 元 组 所 占 的 
百分比 )。 它 从 树 的 底部 开始 。 对 于 每 个 内 部 节点 N ,计算 N 的 子 树 的 代价 复杂 度 和 该 
子 树 剪 枝 后 N 的 子 树 ( 即 用 一 个 树叶 节点 替换 ) 的 代价 复杂 度 ,比较 这 两 个 值 。 如 果 剪 去 
节点 N 的 子 树 导致 较 小 的 代价 复杂 度 , 则 剪 掉 该 子 树 ; 和 否则 ,保留 该 子 树 。 

使 用 一 个 标记 类 元 组 的 剪 枝 集 来 评估 代价 复杂 度 。 该 集合 独立 于 用 于 建立 未 剪 枝 树 
的 训练 集 和 用 于 准确 率 评估 的 检验 集 。 算 法 产生 一 个 渐进 的 剪 枝 树 的 集合 。 一 般 而 言 ， 
最 小 化 代价 复杂 度 的 最 小 决策 树 是 首选 。 

C4. 5 算法 使 用 一 种 称 为 悲观 剪 枝 的 方法 , 它 类 似 于 代价 复杂 度 方法 ,因为 它 也 是 用 错 
误 率 评估 对 子 树 剪 枝 做 出 决定 。 然 而 ,悲观 剪 枝 不 需要 使 用 剪 枝 集 ,而 是 使 用 训练 集 估计 错 
误 率 。 注 意 ,基于 训练 集 评估 准确 率 或 错误 率 过 于 乐观 ,因此 具有 较 大 的 偏 傈 。 因 此 ,悲观 
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剪 枝 方法 通过 加 上 一 个 惩罚 来 调节 从 训练 集 得 到 的 错误 率 ,以 抵消 所 出 现 的 偏 倚 。 

可 以 根据 对 树 编码 所 需要 的 二 进位 位 数 , 而 不 是 根据 估计 的 错误 率 ,对 树 进行 前 枝 。 
“最 佳 ” 剪 枝 树 是 最 小 化 编码 二 进位 位 数 的 树 。 这 种 方法 采用 MDL 原则 。 其 基本 思想 
是 : 最 简单 的 解 是 首选 的 解 。 与 代价 复杂 性 前 枝 不 同 , 它 不 需要 独立 的 元 组 集 。 

另外 ,对 于 组 合 方法 , 先 剪 枝 和 后 剪 枝 可 以 交叉 使 用 。 后 剪 枝 所 需要 的 计算 比 先 剪 枝 
多 ,但 是 通常 产生 更 可 靠 的 树 。 并 未 发 现 一 种 剪 枝 方法 优 于 所 有 其 他 方法 。 尽 管 某 些 剪 
枝 方法 需要 额外 的 数据 支持 ,但 是 在 处 理 大 型 数据 库 时 ,这 并 不 是 问题 。 

尽管 剪 枝 后 的 树 一 般 比 未 剪 枝 的 树 更 紧凑 ,但 是 它们 仍然 可 能 很 大 ,很 复杂 。 决 策 树 
可 能 受到 重复 和 复制 的 困扰 ,使 得 它们 很 难 解 释 。 沿 着 一 条 给 定 的 分 枝 反复 测试 一 个 属 
TECHN “age < 607”, 后 面 跟着 “age 二 45?” 等 ) 时 就 会 出 现 重复 (repetition)。 复 制 
(replication) 是 树 中 存在 重复 的 子 树 。 这 些 情况 影响 了 决策 树 的 准确 率 和 可 解释 性 。 使 
用 多 元 划分 (基于 组 合 属性 的 划分 ) 可 以 防止 该 问题 的 出 现 。 另 一 种 方法 是 使 用 不 同形 式 
的 知识 表示 (如 规则 ) 而 不 是 决策 树 。 


5.2.7 决策 树 归 纳 的 特点 


下 面 是 对 决策 树 归纳 算法 重要 特点 的 总 结 。 

(1) 决策 树 归纳 是 一 种 构建 分 类 模型 的 非 参 数 方法 。 换 句 话 说 , 它 不 要 求 任何 先 验 
假设 ,不 假定 类 和 其 他 属性 服从 一 定 的 概率 分 布 。 

(2) 找到 最 佳 的 决策 树 是 NP 完全 问题 。 许 多 决策 树 算法 都 采取 启发 式 的 方法 指导 
对 假设 空间 的 搜索 。 

(3) 已 开发 的 构建 决策 树 技术 不 需要 昂贵 的 计算 代价 ,即使 训练 集 非常 大 ,也 可 以 快 
速 建立 模型 。 此 外 .决策 树 一 旦 建立 ,未 知 样本 分 类 非常 快 ,最 坏 情 况 下 的 时 间 复 杂 度 是 
O(w) ,其 中 w 是 树 的 最 大 深度 。 

(4) 决策 树 相 对 容易 解释 ,特别 是 小 型 的 决策 树 。 在 很 多 简单 的 数据 集 上 ,决策 树 的 
准确 率 也 可 以 与 其 他 分 类 算法 相 媲 美 。 

(5) 决策 树 是 学 习 离散 值 函数 的 典型 代表 。 然 而 , 它 不 能 很 好 地 推广 到 某 些 特 定 的 
布尔 问题 。 一 个 著名 的 例子 是 奇偶 函数 , 当 奇数 (偶数 ) 个 布尔 属性 为 真 时 其 值 为 0(1) 。 
对 这 样 的 函数 准确 建 模 需要 一 棵 具有 2 个 节点 的 满 决策 树 ,其 中 d 是 布尔 属性 的 个 数 。 

(6) 决策 树 算 法 对 于 噪声 的 干扰 具有 相当 好 的 鲁 棒 性 ,采用 避免 过 分 拟 合 的 方法 之 
后 尤其 如 此 。 

(7) 宛 余 属 性 不 会 对 决策 树 的 准确 率 造 成 不 利 的 影响 。 一 个 属性 如 果 在 数据 中 与 另 
一 个 属性 是 强 相 关 的 ,那么 它 是 元 余 的 。 在 两 个 宛 余 属性 中 ,如 果 已 经 选择 其 中 一 个 作为 
用 于 划分 的 属性 , 则 另 一 个 将 被 忽略 。 然 而 .如 果 数 据 集中 含有 很 多 不 相关 的 属性 ( 即 对 
分 类 任务 没有 用 的 属性 ) , 则 某 些 不 相关 的 属性 可 能 在 树 的 构造 过 程 中 偶然 被 选中 ,导致 
决策 树 过 于 庞大 。 通 过 在 预 处 理 阶段 删除 不 相关 的 属性 ,特征 选择 技术 能 够 帮助 提高 决 
策 树 的 准确 率 。 

(8) 由 于 大 多 数 的 决策 树 算法 都 采用 自 顶 向 下 的 递归 划分 方法 ,因此 沿 着 树 向 下 , 记 
录 会 越 来 越 少 。 在 叶 节 点 ,记录 可 能 太 少 ,对 于 叶 节点 代表 的 类 不 能 做 出 具有 统计 意义 的 
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判决 ,这 就 是 所 谓 的 数据 碎片 (data fragmentation) 问 题 。 解 决 该 问题 的 一 种 可 行 的 方法 
是 , 当 样 本 数 小 于 某 个 特定 阔 值 时 停止 分 裂 。 

(9) 子 树 可 能 在 决策 树 中 重复 多 次 ,如 图 5-16 所 示 , 这 使 得 决策 树 过 于 复杂 ,并 且 可 
能 更 难 解释 。 当 决策 树 的 每 个 内 部 节点 都 依赖 单个 属性 测试 条 件 时 ,就 会 出 现 这 种 情形 。 
由 于 大 多 数 的 决策 树 算法 都 采用 分 治 划分 策略 ,因此 在 属性 空间 的 不 同 部 分 可 以 使 用 相 
同 的 测试 条 件 , 从 而 导致 子 树 重复 问题 。 




































































图 5-16 子 树 重复 问题 


(10) 迄今 为 止 ,本 章 介绍 的 测试 条 件 都 只 涉及 一 个 属性 。 这 样 ,可 以 将 决策 树 的 生 
长 过 程 看 成 划分 属性 空间 不 相交 的 区 域 的 过 程 ,直到 每 个 区 域 都 只 包含 同一 类 的 记录 ( 见 
图 5-17)。 两 个 不 同类 的 相 邻 区 域 之 间 的 边界 称 作 决策 边界 (decision boundary)。 由 于 
测试 条 件 只 涉及 单个 属性 ,因此 决策 边界 是 直线 , 即 平行 于 “坐标 轴 ”, 这 就 限制 了 决策 树 
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图 5-17 二 维 数据 集 的 决策 树 及 其 决策 边界 实例 
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对 连续 属性 之 间 复 杂 关系 建 模 的 表达 能 力 。 图 5-18 显示 了 一 个 数据 集 , 使 用 一 次 只 涉及 
一 个 属性 的 测试 条 件 的 决策 树 算法 很 难 有 效 地 对 它 进行 分 类 。 





01 02 03 04 05 06 07 08 09 1 
图 5-18 使 用 仅 涉及 单个 属性 的 测试 条 件 不 能 有 效 划 分 的 数据 集 的 例子 


斜 决策 树 (oblique decision tree) 可 以 克服 以 上 的 局 限 ,因为 它 允 许 测 试 条 件 涉及 多 
个 属性 。 图 5-18 中 的 数据 集 可 以 很 容易 地 用 斜 决策 树 表示 ,该 斜 决策 树 只 有 一 个 基点 ， 
其 测试 条 件 为 

rty<l 

尽管 这 种 技术 具有 更 强 的 表达 能 力 ,并 且 能 够 产生 更 紧凑 的 决策 树 , 但 是 为 给 定 的 节点 找 
出 最 佳 测试 条 件 的 计算 可 能 是 相当 复杂 的 。 

归纳 构造 (constructive induction) 提 供 另 一 种 将 数据 划分 成 齐 次 非 矩 形 区 域 的 方法 ， 
该 方法 创建 复合 属性 ,代表 已 有 属性 的 算术 或 逻辑 组 合 。 新 属性 提供 了 更 好 的 类 区 分 能 
力 ,并 在 决策 树 归纳 之 前 就 增 广 到 数据 集中 。 与 斜 决策 树 不 同 , 归 纳 构造 不 需要 昂贵 的 花 
费 , 因 为 在 构造 决策 树 之 前 , 它 只 需要 一 次 性 地 确定 属性 的 所 有 相关 组 合 。 相 比 之 下 ,在 
扩展 每 个 内 部 节点 时 ,和 斜 决 策 树 都 需要 动态 地 确定 正确 的 属性 组 合 。 然 而 ,归纳 构造 会 产 
生 宛 余 的 属性 ,因为 新 创建 的 属性 是 已 有 属性 的 组 合 。 

AD 研究 表明 ,不 纯 性 度量 方法 的 选择 对 决策 树 算法 的 性 能 影响 很 小 ,这 是 因为 许 
多 度量 方法 是 相互 一 致 的 。 实 际 上 ., 树 剪 枝 对 最 终 决策 树 的 影响 比 不 纯 性 度量 的 选择 的 
影响 更 大 。 


53 贝 叶 斯 分 类 算法 


在 很 多 应 用 中 ,属性 集 和 类 变量 之 间 的 关系 是 不 确定 的 。 换 句 话 说 ,尽管 测试 记录 的 
属性 集 和 某 些 训练 样 例 相 同 ,但 是 也 不 能 正确 地 预测 它 的 类 标号 。 这 种 情况 产生 的 原因 
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可 能 是 噪声 ,或 者 出 现 了 某 些 影响 分 类 的 因素 却 没有 包含 在 分 析 中 。 例 如 ,考虑 根据 一 个 
人 的 饮食 和 锻炼 的 频率 来 预测 他 是 否 有 上 患 心脏 病 的 危险 。 尽 管 大 多 数 饮食 健康 、 经 常 锻 
炼 身体 的 人 患 心脏 病 的 几率 较 小 ,但 仍 有 人 由 于 遗传 .过量 抽烟 、 酮 酒 等 其 他 原因 而 患 病 。 
确定 一 个 人 的 饮食 是 否 健康 .体育 锻炼 是 否 充分 也 是 需要 论证 的 课题 ,这 反 过 来 也 会 给 学 
习 问 题 带 来 不 确定 性 。 

贝 叶 斯 分 类 法 是 统计 学 分 类 方法 ,可 以 预测 类 隶属 关系 的 概率 ,如 一 个 给 定 的 元 组 属 
于 一 个 特定 类 的 概率 。 

贝 叶 斯 分 类 基于 贝 叶 斯 定理 。 分 类 算法 的 比较 研究 发 现 ,一 种 称 为 朴素 贝 叶 斯 分 类 
法 的 简单 贝 叶 斯 分 类 法 可 以 与 决策 树 和 经 过 挑选 的 神经 网 络 分 类 器 相 媲 美 。 用 于 大 型 数 
据 库 时 , 贝 叶 斯 分 类 法 也 表现 出 高 准确 率 和 高 速度 。 

朴素 贝 叶 斯 分 类 法 假定 一 个 属性 值 在 给 定 类 上 的 影响 独立 于 其 他 属性 的 值 。 这 一 假 
定 称 为 类 条 件 独立 性 。 做 此 假定 是 为 了 简化 计算 ,并 在 此 意义 下 称 为 “朴素 的 ”。 

5. 3. 1 节 介 绍 基本 的 概率 概念 和 贝 叶 斯 定理 。5. 3. 2 节 学 习 如 何 进行 贝 叶 斯 分 类 。 
5. 3. 3 节 则 对 贝 叶 斯 信念 网 络 做 基本 介绍 。 


5.3.1 贝 叶 斯 定理 


贝 叶 斯 定理 用 Thomas Bayes 的 名 字 命名 。Thomas Bayes 是 一 位 不 墨守成规 的 英 
国 牧师 ,是 18 世纪 概率 论 和 决策 论 的 研究 者 。 设 X 是 数据 元 组 。 在 贝 叶 斯 的 术语 中 ,X 
看 做 “证 据 ?。 通 常 ,X 用 个 属性 集 的 测量 值 描述 。 令 H 为 某 种 假设 ,如 数据 元 组 X 属 
于 某 个 特定 类 C。 对 于 分 类 问题 ,希望 确定 给 定 “ 证 据 ” 或 观测 数据 元 组 X, 假 设 H 成 立 
的 概率 PC 瓦 |IX)。 换 言 之 ,给 定 X 的 属性 描述 , 找 出 元 组 X 属于 类 C 的 概率 。 

P(HIX) 是 后 验 概率 (posterior probability) ,或 在 条 件 X 下 互 的 后 验 概率 。 例 如 ， 
假设 数据 元 组 世界 限于 分 别 由 属性 age 和 income 描述 的 顾客 ,而 X 是 一 位 35 岁 的 顾客 ， 
其 收入 为 4 万 美元 。 令 H 为 某 种 假设 ,如 顾客 将 购买 计算 机 。 则 PCH | XD BRT KRN 
知道 顾客 的 年 龄 和 收入 时 ,顾客 X 将 购买 计算 机 的 概率 。 

HPCH) ERRER (prior probability) ,或 在 条 件 X 下 互 的 先 验 概率 。 对 于 上 
面 的 例子 , 它 是 任意 给 定 顾客 将 购买 计算 机 的 概率 ,而 不 管 他 们 的 年 龄 .收入 或 任何 其 他 
idk, JARREREK P( 有 |X) 比 先 验 概率 P( 玉 ) 基 于 更 多 的 信息 (例如 顾客 的 信息 )。P(H) 
独立 于 X。 
类 似 地 ,P(XIH) 是 条 件 H FX 的 后 验 概率 。 也 就 是 说 , 它 是 已 知 顾客 X 将 购买 计 
算 机 时 ,该 顾客 是 35 岁 并 且 收 入 为 4 万 美元 的 概率 。 
POOR X 的 先 验 概率 。 使 用 上 面 的 例子 , 它 是 顾客 集合 中 年 龄 为 35 岁 并 且 收 入 为 
4 万 美元 的 概率 。 
如 何 估计 这 些 概率 ? 正如 下 面 将 看 到 的 ,P(X)、P( 有 H) 和 P(X| 甩 ) 可 以 由 给 定 的 数 
据 估 计 。 贝 叶 斯 定理 的 作用 是 提供 了 一 种 由 P(X)、P(H) 和 P(X| 甩 ) 计 算 后 验 概率 
P(H|IX) 的 方法 。 贝 叶 斯 定理 可 以 用 下 式 表 示 


P(X | H)P(H) 
P(X) 





了 (五 | X)= (5-7) 
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5.3.2 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 (Naive Bayesian) 分 类 法 或 简单 贝 叶 斯 分 类 法 的 工作 过 程 如 下 : 

(1) 设 DD 是 训练 元 组 和 它们 关联 的 类 标号 的 集合 。 通 常 ,每 个 元 组 用 一 个 n 维 属 性 
HE XS (ary vay oer ,XZ,} 表 示 , 描 述 由 个 属性 Ai,A,,…,A, 对 元 组 的 n 个 测量 。 

(2) 假定 有 m 个 分 类 Ci ,C:,…,Cw。 给 定 元 组 X, 分 类 法 将 预测 X 属于 具有 最 高 后 
验 概率 的 类 (在 条 件 X 下 )。 也 就 是 说 ,朴素 贝 叶 斯 分 类 法 预测 X 属于 类 Ci , 当 且 仅 当 

P(C; |X) > P(C |X) 1<j<cm,jFi 

这 样 , 最 大 化 POC; |X). PCC, |X) 最 大 的 类 C 称 为 最 大 后 验 假设 。 根 据 贝 叶 斯 定理 
( 式 (5-7)), 有 


P(X | Ci)P(CCi) 
P(X) 


(3) 由 于 P(X) 对 所 有 类 为 常数 ,所 以 只 需要 P(X|Ci)P(C;) 最 大 即 可 。 如 果 类 的 先 
验 概率 未 知 , 则 通常 假定 这 些 类 是 等 概率 的 , 即 PCC.) = POC, ) = + = PCC, ) o JEE E I 
P(X1C;) 最 大 化 ;否则 ,最 大 化 P(X1C;)P(C;)。 注 意 ,类 先 验 概率 可 以 用 PCC) = 
1Cip1/1D1 估 计 , 其 中 |Ci,p | 是 D PRC; 的 训练 元 组 数 。 

(4) 给 定 具有 许多 属性 的 数据 集 , 计 算 POX 1C;) 的 开销 可 能 非常 大 。 为 了 降低 计算 
P(X 1C;) 的 开销 ,可 以 做 类 条 件 独立 的 朴素 假定 。 给 定 元 组 的 类 标号 ,假定 属性 值 有 条 
件 地 相互 独立 ( 即 属性 之 间 不 存在 依赖 关系 )。 因 此 ,有 


PCC; | X) = (5-8) 


P(X | Ci) = II P(x, | Ci) = PCa, | CDP | Ci)*…P(zx, | Ci) (5-9) 


可 以 很 容易 地 由 训练 元 组 估计 概率 PC | Ci). PCl Ci) PCa, (Ci). TER 2, 表示 元 
组 X 在 属性 A, 的 值 。 对 于 每 个 属性 ,考察 该 属性 是 分 类 的 还 是 连续 值 的 。 例 如 ,为 了 计 
算 P(X |C) ,考虑 如 下 情况 : 
。 如 果 A, 是 分 类 属性 , 则 PCze|C:) 是 D 中 属性 zx 的 C; 类 的 元 组 数 除 以 D 中 C; 
类 元 组 数 |Ci,p|。 
。 如 果 A, 是 连续 值 属性 , 则 需要 多 做 一 点 工作 ,但 是 计算 很 简单 。 通 常 ,假定 连续 
值 属性 服从 均值 为 x\ 标 准 差 为 o 的 高 斯 分 布 .由 下 式 定义 : 


1 Gp 





gz As0) = ee 2 (5-10) 
äi V2no 
因此 : 
Plar | C) = gxi spc, sac) (5-11) 


这 些 公式 看 上 去 可 能 有 点 令 人 生 旦 ,但 是 沉 住 气 , 需 要 计算 pc 和 oc ,它们 分 别 是 C; 类 训 
练 元 组 属性 A, 的 均值 和 标准 差 。 将 这 两 个 量 与 x, 一 起 带 入 式 (5-10) ,计算 P lC). 
例如 , 设 X=(35,40000). FEF A, 和 A; 分 别 是 属性 age 和 income。 设 类 标号 属性 
为 buys_computer。X 相关 联 的 类 标号 是 “yes”( 即 buys_computer 王 yes)。 假 设 age 尚 
未 离散 化 ,因此 是 连续 值 属 性 。 假 设 从 数据 集 发 现 D 中 购买 计算 机 的 顾客 年 龄 为 38 士 12 
岁 。 换 言 之 ,对 于 属性 age 和 这 个 类 ,有 jy 二 38 和 oc 一 12。 可 以 把 这 些 量 与 元 组 XX 的 x 一 
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35 一 起 带 入 式 (5-10) ,估计 P(age=35|buys_computer= yes), 

(5) 为 了 预测 X 的 类 标号 ,对 每 个 类 C ,计算 P(X |C;)P(C;)。 该 分 类 法 预测 输入 

元 组 X 的 类 为 C;, 当 且 仅 当 
P(X | C) PCC) DPC lei mj (5-12) 
换言之 ,被 预测 的 类 标号 是 使 P(X |Ci)P(C;) 最 大 的 类 Ci 。 

该 分 类 法 与 决策 树 和 神经 网 络 分 类 法 的 各 种 比较 试验 表明 ,在 某 些 领域 , 贝 叶 斯 分 类 
法 具有 最 小 的 错误 率 。 然 而 ,在 实际 中 并 非 总 是 如 此 。 这 是 由 于 对 其 使 用 的 假定 (如 类 条 
件 独立 性 ) 的 不 正确 性 以 及 缺乏 可 用 的 概率 数据 造成 的 。 

贝 叶 斯 分 类 还 可 以 用 来 为 不 直接 使 用 贝 叶 斯 定理 的 其 他 分 类 法 提供 理论 判定 。 例 
如 ,在 某 种 假定 下 ,可 以 证 明 : 与 朴素 贝 叶 斯 分 类 法 一 样 ,许多 神经 网 络 和 曲线 拟 合算 法 
输出 最 大 的 后 验 假定 。 

考虑 图 5-19(a) 中 的 数据 集 。 可 以 计算 每 个 分 类 属性 的 类 条 件 概 率 , 同 时 利用 前 面 
介绍 的 方法 计算 连续 属性 的 样本 均值 和 方差 。 这 些 概 率 汇总 在 图 5-19(b) 中 。 


Tid ”有 房 。 婚姻 状况 FKA 拖欠 贷款 
1 是 单身 125k | 





oy 


























| P( 有 房 = 是 INo)=3/7 
2 否 已 婚 100k | 否 P( 有 房 = 否 INo)=4/7 
3 T 单身 70k F Aa 
| p mre T = P( 有 房 = 否 |Yes)=1 
4 是 已 婚 120k ， 否 P( 婚 姻 状 况 = 单 身 INo)=2/7 
s a 离婚 95k 是 Hebi sel uae 
Py | = 已 婚姻 状况 = 已 婚 [INo)=4/7 
6 | 再 Ci 50 | 一 P( 婚 姻 状况 = 单身 |Yes)=2/3 
7 是 离婚 220k | 否 P( 婚 姻 状况 = 离婚 |Yes)=1/3 
8 | # 单身 sk | 是 Ee 
9 a 已 婚 75k 否 。 如 果 类 =No : 样本 均值 =110， 样 本 方差 =2975 
10 a 单身 90k | 是 ， 如 果 类 =Yes : 样本 均值 =90， 样 本 方差 =25 
(a) 数据 集 (b) 概率 汇总 


图 5-19 ”贷款 分 类 问题 的 朴素 贝 叶 斯 分 类 器 


为 了 预测 测试 记录 X 一 (有 房 二 和 否 , 婚 姻 状 况 = 已 婚 , 年 收入 =120k) 的 类 标号 ,需要 
计算 后 验 概率 PCNo| X) Ail PCYes|X) 。 
每 个 类 的 先 验 概 率 可 以 通过 计算 属于 该 类 的 训练 记录 所 占 的 比例 来 估计 。 因 为 有 3 
个 记录 属于 类 Yes,7 个 记录 属于 类 No, 所 以 PC Yes) =0.3.P(No)=0.7. ME 5-19 
中 提供 的 信息 ,类 的 条 件 概率 计算 如 下 : 
P(X | No)= P( 有 房 = 否 | No) X P( 婚 姻 状 况 = 已 婚 | No) x 已 (年 收入 = 120k | No) 
= 4/7 X 4/7 X 0, 0072 = 0. 0024 
P(X | Yes)= P( 有 房 = A | Yes) X P( 婚 姻 状况 = 已 婚 | Yes) x P( 年 收入 = 120k | Yes) 
=1xX0X1.2x 10° =0 
放 到 一 起 可 得 到 类 No 的 后 验 概率 PCNo| X) =a X 7/10 X 0. 0024 =0, 0016a, 其 中 
a=1/P(X) ,是 一 个 常量 。 同 理 , 可 以 得 到 类 Yes 的 后 验 概率 等 于 0, 这 是 由 于 它 的 类 条 
件 概率 等 于 0。 因 为 P(No|X) 之 PCYes|X) ,所 以 记录 分 类 为 No。 
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5.3.3” 贝 叶 斯 信念 网 络 


朴素 贝 叶 斯 分 类 假定 类 条 件 独 立 , 即 给 定 样本 的 类 标号 ,属性 的 值 相互 条 件 独立 。 但 
在 实践 中 ,变量 之 间 的 依赖 可 能 存在 。 贝 叶 斯 信念 网 络 说 明 联合 条 件 概率 分 布 , 它 允许 在 
变量 的 子 集 间 定 义 类 条 件 独立 性 。 它 提供 一 种 因果 关系 的 图 形 。 

举 个 简单 的 例子 ,如 图 5-20 所 示 。 对 下 雨 (R) 引 起 草地 变 湿 (W) 建 模 , 如 图 5-21 所 
示 。 天 下 雨 的 可 能 性 为 40% ,并 且 下 雨 时 草地 变 湿 的 可 能 性 为 900% ;也 许 10% 的 时 间 雨 
下 得 不 长 ,不 足以 让 我 们 真正 认为 草地 被 淋 湿 了 。 


P(WIR)=0.9 


图 5-20 贝 叶 斯 信念 网 络 举例 一 图 5-21 对 下 雨 是 湿 草 地 的 原因 建 模 


在 这 个 例子 中 ,随机 变量 是 二 元 的 : 真 或 假 。 存 在 20% 的 可 能 性 草地 变 湿 而 实际 上 
并 没有 下 雨 。 例 如 ,使 用 喷 水 器 时 ,草地 会 变 湿 但 并 没有 下 雨 。 

可 以 看 到 3 个 值 就 可 以 完全 指定 P(R,W) 的 联合 分 布 。 如 果 PCR) =0. 4, 则 
P(~R)=0.6. (sh, P(~W|R)=0. 1,1 P(~W|~R)=0. 8. 3X42 —-TARA. fit 
释 草 地 变 湿 的 主要 原因 是 下 雨 。 可 以 颠倒 因果 关系 并 且 做 出 诊断 。 例 如 ,已 知 草地 是 湿 
的 , 则 下 过 雨 的 概率 可 以 计算 如 下 : 


— PAW | R)PR) 
P(R | W) = PW) 


PCW | R)P(R) 
PCW | R)P(R)+P(VW |~ R)P(~ R) 


0.9 X0.4 
0.9X0.4+0.2 X0.6 


现在 ,假设 想 把 喷 水 器 (S) 作 为 草地 变 湿 的 另 一 个 原因 ,如 图 5-22 所 示 。 对 喷 水 器 
(S) 和 下 雨 (R) 使 草地 变 湿 (W) 建 模 ,如 图 5-23 所 示 。 














0.75 


P(S)=0.2 P(S)=0.2 






P(WIR, $)=0.95 
P(WIR, ~S)=0.90 
P(WI-R, S)=0.90 
湿 草 地 W P(WI-R, ~S)=0.1 
图 5-22 贝 叶 斯 信念 网 络 举例 二 图 5-23 ”对 喷 水 器 和 下 雨 是 湿 草 地 的 原因 建 模 
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节点 WW 有 两 个 父 节点 R 和 S, 因 此 它 的 概率 是 这 两 个 值 上 的 条 件 概率 PC(W|R.S)。 
可 以 计算 喷 水 器 开 着 草地 会 湿 的 概率 。 这 是 一 个 因果 (预测 ) 推 理 : 
PCW | S)= PCW | R.S)P(R | S) + PCW |~ R,S)P(~ R| S) 
= P(W | R.S) PCR) + PCW | ~ R.S) P(~ R) 
= 0.95 X0.4+0.9X0.6 = 0.92 
给 定 草地 是 湿 的 ,能 够 计算 喷 水 器 开 着 的 概率 。 这 是 一 个 诊断 推理 ， 
PCW | S)P(S) 
PCW) 
_ 0.92 X0.2 _ 
0.52 


P(S| W= 


0. 35 


其 中 ， 
PCW)= PCW | R.S)PC(R,S) + PCW | ~ R,S)P(~ R,S) 

+ PCW|R, ~S)P(R, ~ S)+ PCW |~ R, ~ S)P(~ R, ~ S) 

= P(W|R.S)PC(R)P(S) + PCW | ~ R,S)P(~ R)P(S) 

+ PCW |R, ~ S)P(R)P(~ S)+ PCW |~ R, ~ S)P(~ R)P(~ S) 
= 0.95 X0.4X0.2+0.9X0.6X0.2+0.9X0.4X0.8+0.1 0.6 X0.8 
= 0.52 

知道 草 是 湿 的 增加 了 喷 水 器 开 着 的 可 能 。 现 在 假设 下 过 雨 ,有 


P(W | R:-S)P(S | R) _ P(W | R,S)P(S) 
P(W |R) P(W | R) 


注意 ,这 个 值 比 P(S|W) 小 。 这 叫做 解释 远离 (explaining away)。 给 定 已 知 下 过 雨 , 则 喷 
水 器 导致 湿 草 地 的 可 能 性 降低 了 。 已 知 草地 是 湿 的 ,下 十 和 喷 水 器 成 为 相互 依赖 的 。 


54 支持 向 量 机 算法 


支持 向 量 机 (Support Vector Machine, SVMD) 已 经 成 为 一 种 备 受 关注 的 分 类 技术 。 
这 种 技术 具有 坚实 的 统计 学 理论 基础 ,并 在 许多 实际 应 用 (如 手写 数字 的 识别 ,文本 分 类 
等 ) 中 展示 了 大 有 可 为 的 实践 效用 。 此 外 ,SVM 可 以 很 好 地 应 用 于 高 维 数据 ,避免 了 高 维 
灾难 问题 。 这 种 方法 具有 一 个 独特 的 特点 , 它 使 用 训练 实例 的 一 个 子 集 来 表示 决策 边界 ， 
该 子 集 称 作 支持 向 量 (support vector) 。 

支持 向 量 机 的 第 一 篇 论文 由 Vladimir Vapnik 和 他 的 同事 Bernhard Boser 及 
Isabelle Guyon 于 1992 年 发 表 , 而 其 基础 工作 早 在 20 世纪 60 年 代 就 已 经 出 现 。 尽 管 最 
快 的 SVM 的 训练 也 非常 慢 , 但 是 其 对 复杂 的 非 线 性 边界 的 建 模 是 非常 准确 的 。 与 其 他 
模型 相 比 ,SVM 不 太 容 易 过 分 拟 合 。SVM 还 提供 了 学 习 模 型 的 紧凑 表示 。SVM 可 以 用 
于 数值 预测 和 分 类 。 

5.4.1 节 和 5.4.2 节 分 别 就 数据 线性 可 分 和 数据 非 线性 可 分 的 情况 作 介绍 。 


5.4.1 数据 线性 可 分 的 情况 
为 了 解释 SVM ,首先 考察 最 简单 的 情况 一 一 二 元 分 类 问题 ,其 中 两 个 类 是 线性 可 分 
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P(S| R.W) 
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的 。 设 给 定 的 数据 集 也 为 CXK oy) (Xoo ye) see Xp sy) SEX, 是 训练 元 组 ,具有 
类 标号 mw。 每 个 w 可 以 取 值 十 1 或 一 1( 即 y;€ {十 1, 一 1)), 分 别 对 应 于 类 buys_ 
computer=yes 和 buys_computer 一 no。 为 了 便于 可 视 化 ,考虑 一 个 基于 两 个 输入 属性 
A, Fil A, 的 例子 ,如 图 5-24 所 示 。 从 该 图 可 以 看 出 ,该 二 维 数据 是 线性 可 分 的 (或 简称 
“线性 的 ”) ,因为 可 以 画 一 条 直线 ,把 类 十 1 的 元 组 与 类 一 1 的 元 组 分 开 。 

Ay 


© #1. y=+1(buys_computer=yes) 
@ #2. y=-I(buys_computer=no) 











图 5-24 ”线性 可 分 的 2D 数据 集 。 有 无 限 多 个 (可 能 的 ) 分 离 超 
平面 或 决策 边界 ,其 中 一 些 用 虚线 显示 


可 以 画 出 无 限 多 条 分 离 直线 。 我 们 想 找 出 * 最 好 的 ”一 条 , 即 在 先前 未 见 到 的 元 组 上 
具有 最 小 分 类 误差 的 那 一 条 。 如 何 找 到 这 条 最 好 的 直线 ? 注意 ,如 果 数 据 是 3D 的 ( 即 具 
有 3 个 属性 ) , 则 我 们 希望 找 出 最 佳 分 离 平 面 。 推 广 到 n 维 , 我 们 希望 找 出 最 佳 超 平面 。 
下 面 使 用 术语 “ 超 平面 "表示 寻找 的 决策 边界 ,而 不 管 输入 属性 的 个 数 是 多 少 。 这 样 , 换 一 
旬 话 说 ,如 何 找 出 最 佳 超 平面 ? 

SVM 通过 搜索 最 大 边缘 超 平面 (Maximum Marginal Hyperplane, MMH) 来 处 理 该 
问题 。 考 虑 图 5-25, 它 显示 了 两 个 可 能 的 分 离 超 平面 和 它们 的 相关 联 的 边缘 。 在 给 出 边 
缘 的 定义 之 前 ,让 我 们 先 直观 地 考察 该 图 。 两 个 超 平面 都 对 所 有 的 数据 元 组 正确 地 进行 
了 分 类 。 然 而 ,直观 地 看 ,我 们 预料 具有 较 大 边缘 的 超 平面 在 对 未 来 的 数据 元 组 分 类 上 比 
具有 较 小 边缘 的 超 平面 更 准确 。 这 就 是 为 什么 (在 学 习 或 训练 阶段 )SVM 要 搜索 具有 最 
大 边缘 的 超 平面 , 即 最 大 边缘 超 平面 。MMH 相关 联 的 边缘 给 出 类 之 间 的 最 大 分 离 性 。 

关于 边缘 的 非 形 式 化 定义 ,可 以 说 从 超 平面 到 其 边缘 的 一 个 侧面 的 最 短 距离 等 于 从 
该 超 平面 到 其 边缘 的 另 一 个 侧面 的 最 短 距离 .其 中 边缘 的 “侧面 "平行 于 超 平面 。 事实 上 ， 
在 处 理 MMH 时 ,这 个 距离 是 从 MMH 到 两 个 类 的 最 近 的 训练 元 组 的 最 短 距离 。 

分 离 超 平面 可 以 记 为 

W-X+6=0 (5-13) 
其 中 ,W EREHE, E W {w s, wt we, an 是 属性 数 ;6b 是 标量 ,通常 称 作 偏 倚 
(bias)。 为 了 便于 观察 ,考虑 两 个 输入 属性 A, 和 As ,如 图 5-25(b) 所 示 。 训 练 元 组 是 二 
维 的 ,如 X= Caisar) AP zx， 和 xz 分 别 是 A, 和 As 上 的 值 。 如 果 把 2 看 做 附加 的 权重 
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(a) 小 边缘 示例 (b) 大 边缘 示例 
图 5-25 ”两 个 可 能 的 分 离 超 平面 和 它们 的 边缘 
ro, 则 可 以 把 分 离 超 平面 改写 成 
w + wir + w2r2 = 0 (5-14) 
这 样 ,位 于 分 离 超 平面 上 方 的 点 满足 
We + wir + wr: > 0 (5-15) 
类 似 地 ,位 于 分 离 超 平面 下 方 的 点 满足 
w + wir + were <0 (5-16) 
可 以 调整 权重 使 得 定义 边缘 “侧面 ”的 超 平面 可 以 记 为 
Hi: w 十 wizi 十 wzxs Sl, 对 于 yi =+1 (5-17) 
H:: w+ wir, +wx: <—1， 对 于 yw = 一 1 (5-18) 








也 就 是 说 , 落 在 H, 上 或 上 方 的 元 组 都 属于 类 十 1, 而 落 在 H: 上 或 下 方 的 元 组 都 属于 类 
一 1。 结 合式 (5-17) 和 式 (5-18) 这 两 个 不 等 式 , 可 以 得 到 : 

yilwo Hwi tu.) S1, Vi (5-19) 
落 在 超 平面 H, 或 A, CBE CARY" A E AA FAE E I A 7 H KBER 5-19) BY 
号 成 立 , 称 为 支持 向 量 (support vector)。 也 就 是 说 ,它们 离 MMH 一 样 近 。 在 图 5-26 
中 ,支持 向 量 用 加 粗 的 圆圈 显示 。 本 质 上 ,支持 向 量 是 最 难 分 类 的 元 组 ,并 且 给 出 了 最 多 
的 分 类 信息 。 

由 上 ,可 以 得 到 最 大 边缘 的 计算 公式 。 从 分 离 超 平面 到 H 上 任意 点 的 距离 是 
TET FP IWI | 是 欧 几 里 得 范 数 , 即 WW CIO W (oor ste iter) SW W= 
JWitWit-+W,). REM. CSF A, 上 任意 点 到 分 离 超 平面 的 距离 。 因 此 ,最 大 
2 
WRT HTT 

SVM 如 何 找 出 MMH 和 支持 向 量 ? 使 用 某 种 “特殊 的 数学 技巧 ”, 可 以 改写 


ARB RMA 


O 481, y=+1(buys_computer=yes) 
@ 类 2, y=—l(buys_computer=no) 





A, 





图 5-26 支持 向 量 。SVM 发 现 最 大 分 离 超 平面 , 即 与 最 近 的 训练 元 组 具有 最 大 距离 的 超 平面 


式 (5-19) ,将 它 变 换 成 一 个 被 约束 的 ( 凸 ) 二 次 最 优化 问题 。 

如 果 数 据 很 少 ( 例 如 , 少 于 2000 个 训练 元 组 ), 则 可 以 使 用 任何 求解 约束 的 凸 二 次 最 
优化 问题 的 最 优化 软件 包 来 找 出 支持 向 量 和 MMH。 对 于 大 型 数据 ,可 以 使 用 特殊 的 、 更 
有 效 的 训练 SVM 的 算法 。 一 旦 找 出 支持 向 量 和 MMH( 注 意 ,支持 向 量 定 义 MMH) ,就 
有 了 一 个 训练 后 的 支持 向 量 机 。MMH 是 一 个 线性 类 边界 ,因此 对 应 的 SVM 可 以 用 来 
对 线性 可 分 数据 进行 分 类 。 这 种 训练 后 的 SVM 称 为 线性 SVM. 

一 旦 得 到 训练 后 的 支持 向 量 机 ,如 何 用 它 对 检验 元 组 ( 即 新 元 组 ) 分 类 ? 根据 拉 格 朗 
日 公式 ,最 大 边缘 超 平面 可 以 改写 成 决策 边界 : 


i 
d(XT) = >) yaiXiXT +b (5-20) 
i=1 


其 中 ,yw 是 支持 向 量 X; 的 类 标号 ,X7 是 检验 元 组 ,ww 和 2 是 由 上 面 的 最 优化 或 SVM 算 
法 自动 确定 的 数值 参数 ,而 ! 是 支持 向 量 的 个 数 。 

给 定 检验 元 组 XT ,将 它 代 入 式 (5-20) ,然后 检查 结果 的 符号 。 这 将 告诉 我 们 检验 元 
组 落 在 超 平面 的 哪 一 侧 。 如 果 该 符号 为 正 , 则 X" 落 在 MMH 上 或 上 方 ,因而 SVM 预测 
X" 属 于 类 十 1( 在 此 情况 下 ,代表 buys_computer 一 yes)。 如 果 该 符号 为 负 , 则 X" 落 在 
MMH 上 或 下 方 , 因 而 SVM 预测 XT 属 于 类 一 1( 代 表 buys_computer 一 no) 。 

注意 , 式 (5-20) 包 含 支持 向 量 X 和 检验 元 组 X7 的 点 积 。 正 如 下 面 要 介绍 的 , 当 给 
定数 据 非 线性 可 分 时 ,这 对 于 发 现 MMH 和 支持 向 量 是 非常 有 用 的 。 

在 考虑 非 线 性 可 分 的 情况 之 前 ,还 有 两 件 重要 的 事情 要 注意 。 学 习 后 的 分 类 器 的 复 
杂 度 由 支持 向 量 数 而 不 是 由 数据 的 维 数 刻画 。 因 此 ,与 其 他 方法 相 比 ,SVM 不 太 容 易 过 
分 拟 合 。 支 持 向 量 是 基本 或 临界 的 训练 元 组 一 一 它们 距离 决策 边界 (MMH) 最 近 。 如 果 
删除 其 他 元 组 并 重新 训练 , 则 将 发 现 相同 的 分 离 超 平面 。 此 外 ,找到 的 支持 向 量 数 可 以 用 
来 计算 SVM 分 类 器 的 期 望 误 差 率 的 上 界 , 这 独立 于 数据 的 维度 。 具 有 少量 支持 向 量 的 
SVM 可 以 具有 很 好 的 泛 化 性 能 ,即使 数据 的 维度 很 高 时 也 是 如 此 。 


188 


EA 数据 分 类 分 本 


5.4.2 数据 非 线性 可 分 的 情况 


在 5.4.1 节 ,我 们 学 习 了 对 线性 可 分 数据 分 类 的 线性 SVM。 但 是 ,如 果 数据 不 是 线 
性 可 分 的 ,如 图 5-27 中 的 数据 ,怎么 办 ? 在 这 种 情况 下 ,不 可 能 找到 一 条 将 这 些 类 分 开 的 
直线 。 我 们 在 上 节 研 究 的 线性 SVM 不 可 能 找到 可 行 解 ,怎么 办 ? 
Ay 


O #1, y=+l(buys_computer=yes) 
@ 482, y=—I(buys_computer=no) 


A 





图 5-27 线性 不 可 分 数据 的 一 个 简单 二 维 例子 


好 消息 是 ,可 以 扩展 上 面 介绍 的 线性 SVM ,为 线性 不 可 分 的 数据 (也 称 非 线性 可 分 
的 数据 ,或 简称 非 线性 数据 ) 的 分 类 创建 非 线性 的 SVM。 这 种 SVM 能 够 发 现 输入 空间 
中 的 非 线性 决策 边界 ( 即 非 线性 超 曲面 ) 。 

按 如 下 方法 扩展 线性 SVM 的 方法 ,得 到 非 线性 的 SVM。 有 两 个 主要 步骤 。 第 一 
步 ,用 非 线性 映射 把 原 输入 数据 变换 到 较 高 维 空 间 。 这 一 步 可 以 使 用 多 种 常用 的 非 线性 
上 映射。 一旦 将 数据 变换 到 较 高 维 空间 ,第 二 步 就 在 新 的 空间 搜索 分 离 超 平面 。 此 时 又 遇 
到 二 次 优化 问题 ,可 以 用 线性 SVM 公式 求解 。 在 新 空间 找到 的 最 大 边缘 超 平面 对 应 于 
原 空间 的 非 线性 分 离 超 曲面 。 

在 求解 线性 SVM 的 二 次 最 优化 问题 时 ( 即 在 新 的 较 高 维 空间 搜索 线性 SVM 时 ) , 训 
练 元 组 仅 出 现在 形 如 $8(X;)。，$(X;) 的 点 积 中 ,其 中 %(X) 是 用 于 训练 元 组 变换 的 非 线性 
映射 函数 。 结 果 表 明 , 它 完全 等 价 于 将 核 函 数 K(X;,X;) 应 用 于 原 输入 数据 ,而 不 必 在 变 
换 后 的 数据 元 组 上 计算 点 积 , 即 

K(X;.X;) = $(X;) RE (5-21) 

换言之 ,每 当 %CXD)。g%(CX) 出 现在 训练 算法 中 时 ,都 可 以 用 开 (X ,Xi ) 蔡 换 它 。 这 样 ， 
所 有 的 计算 都 在 原来 的 输入 空间 上 进行 ,这 可 能 会 降低 难度 。 我 们 可 以 避免 这 种 映 
射 , 事 实 上 ,我们 甚至 不 必 知 道 该 映射 是 什么 。 使 用 这 种 技巧 之 后 ,可 以 找 出 最 大 分 离 
超 平面 。 

可 以 用 来 替换 上 面 的 点 积 的 核 函 数 包 括 以 下 几 个 : 

d) h 次 多 项 式 核 函 数 : 

K(X;.X;) = (X; + X;+1)" 
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(2) 高 斯 径 向 基 函 数 核 函数 : 
K(X,,X;) = e! !X X; 11? 720 
(3) S 型 核 函 数 : 
K(X;,,X;) = tanh (xX;* X; 一 0) 

不 同 的 核 函 数 导致 ( 原 ) 输 入 空间 上 出 现 了 不 同 的 非 线性 分 类 器 。 熟 悉 神 经 网 络 的 读 
者 可 能 注意 到 , 非 线性 的 SVM 所 发 现 的 决策 超 曲 面 与 其 他 著名 的 神经 网 络 分 类 器 所 发 
现 的 同属 一 种 类 型 。 例 如 ,具有 高 斯 径 向 基 函 数 (RBF) 的 SVM 与 称 作 径 向 基 函 数 网 络 
的 一 类 神经 网 络 产生 相同 的 决策 超 曲面 。 具 有 S 型 核 的 SVM 等 价 于 一 种 称 作 多 层 感知 
器 (无 隐藏 层 ) 的 简单 2 层 神经 网 络 。 

没有 一 种 “黄金 规则 ”可 以 确定 哪 种 可 用 的 核 函 数 将 推导 出 最 准确 的 SYM。 在 实践 
中 , 核 函数 的 选择 一 般 并 不 导致 结果 准确 率 的 很 大 差别 。SVM 训练 总 是 发 现 全 局 解 , 而 
不 像 后 向 传播 等 神经 网 络 那样 常常 存在 局 部 最 小 。 

至 此 已 经 介绍 了 二 元 分 类 的 线性 和 非 线性 SVM。 对 于 多 类 问题 ,可 以 用 组 合 SVM 
分 类 器 。 

关于 SVM ,主要 研究 目标 是 提高 训练 和 检验 速度 ,使 得 SVM 可 以 成 为 超大 型 数据 
集 ( 例 如 数 以 百 万 计 的 支持 向 量 ) 更 可 行 的 选择 。 其 他 问题 包括 为 给 定 的 数据 集 确定 最 佳 
PK PBL ,为 多 类 问题 找 出 更 有 效 的 方法 。 


55 粗糙 集 分 类 算法 


粗糙 集 理论 是 1982 年 由 波兰 的 著名 科学 家 Z. Pawlak 提出 的 。 它 是 一 种 能 够 有 效 
地 处 理 不 精确 .不 确定 性 数据 的 数学 工具 ,并 且 它 还 具有 不 需要 任何 的 先 验 知识 ,只 依赖 
于 数据 集 本 身 等 优点 。 粗 糙 集 理论 已 成 为 数据 挖掘 、 机 器 学 习 等 领域 的 研究 热点 之 一 。 
本 节 介 绍 粗糙 集 分 类 的 相关 算法 。 

粗糙 集 被 广泛 应 用 于 数据 挖掘 与 知识 发 现 等 领域 。 为 了 能 够 很 好 地 刻画 不 确定 性 问 
题 ,粗糙 集 理论 主要 是 根据 某 个 条 件 属性 集 所 确定 的 不 可 分 辨 关系 ,并 把 它 称 作 概 念 ,从 
而 可 准确 地 判断 出 某 样本 是 否 属于 该 概念 .也 有 可 能 不 能 够 判断 出 某 样本 是 否 属于 该 概 
念 。 粗 糙 集 采用 上 下 近似 集 的 概念 来 描述 这 一 问题 。 其 中 ,下 近似 集 表示 可 确定 能 够 归 
入 某 一 感 兴趣 概念 的 对 象 集合 ,上 近似 集 表示 可 能 属于 某 一 感 兴趣 概念 的 对 象 集合 。 通 
过 上 下 近似 集 可 以 很 好 地 刻画 出 数据 集 的 不 确定 性 区 域 , 即 边界 区 域 ,如 图 5-28 所 示 。 
由 于 它 能 够 很 好 地 刻画 边界 区 域 , 使 得 粗糙 集 理论 在 数据 挖掘 与 知识 发 现 等 领域 中 具有 
很 强 的 生命 力 。 

粗糙 集 理 论 可 以 用 于 分 类 ,发现 不 准确 数据 或 噪声 数据 内 的 结构 联系 。 它 只 能 应 用 
于 离散 数值 属性 。 因 此 ,连续 值 属 性 必须 在 使 用 前 离散 化 。 

粗糙 集 也 可 以 用 于 属性 子 集 选 择 (或 特征 归 约 ,可 以 识别 和 删除 无 助 于 给 定 训练 数据 
分 类 的 属性 ) 和 相关 分 析 ( 根 据 分 类 任务 评估 每 个 属性 的 贡献 或 显著 性 ) 。 找 出 可 以 描述 
给 定数 据 集中 所 有 概念 的 最 小 属性 子 集 ( 归 约 集 ) 是 NP 困难 的 。 然 而 ,目前 已 提出 了 一 
些 降 低 计算 强度 的 算法 。 例 如 ,有 一 种 方法 使 用 识别 矩阵 (discernibility matrix) 存 放 每 





190 


M 不 确定 性 概念 X 
下 近似 集合 
图 上 近似 集合 
图 5-28 集合 X 的 上 下 近似 集 和 边界 区 域 的 图 示 





对 数据 元 组 属性 值 之 差 。 该 方法 不 是 在 整个 训练 集 上 搜索 ,而 是 搜索 矩阵 ,检测 宛 余 


属性 。 
近年 来 ,众多 研究 学 者 将 其 与 其 他 分 类 算法 相 结 合 ,取得 了 很 好 的 成 果 。 其 主要 表现 
在 两 个 方面 : 一 方面 ,粗糙 集 仅仅 计算 出 信息 系统 中 不 精确 的 区 域 ,对 该 区 域 并 没有 进 一 


步 的 处 理 方法 ,因此 研究 学 者 们 将 其 他 分 类 算法 应 用 于 粗糙 集 边 界 区 域 ,从 而 能 够 很 好 地 
与 粗糙 集结 合 起 来 ,提高 了 其 分 类 决策 能 力 ; 另 一 方面 ,粗糙 集 属性 约 简 过 程 能 够 删除 信 
息 系统 不 必要 的 属性 ,从 而 简化 信息 系统 。 在 多 维 数据 分 析 中 ,为 了 删除 元 余 属性 ,降低 
噪声 的 影响 ,通常 将 粗糙 集 属性 约 简 应 用 于 其 他 分 类 算法 中 ,作为 其 他 分 类 算法 的 预 处 理 
过 程 , 从 而 提高 其 他 分 类 算法 的 正确 率 。 


56 分 类 器 评估 方法 


既然 已 经 建立 了 分 类 模型 ,你 的 脑海 中 就 可 能 浮现 许多 问题 。 例 如 ,假设 使 用 先前 的 
销售 数据 训练 分 类 器 ,预测 顾客 的 购物 行为 。 你 希望 评估 该 分 类 器 预测 未 来 顾客 购物 行 
为 ( 即 未 经 过 训练 的 未 来 顾客 数据 ) 的 准确 率 。 你 甚至 可 能 尝试 用 不 同 的 方法 建立 多 个 分 
类 器 ,并 且 和 希望 比较 它们 的 准确 率 。 但 是 ,什么 是 准确 率 ? 如 何 估计 它 ? 分 类 器 准确 率 的 
某 些 度量 比 其 他 度量 更 合适 吗 ? 如 何 得 到 可 靠 的 准确 率 估 计 ? 

5. 6. 1 节 介 绍 分 类 器 准确 率 的 各 种 评估 度量 。 保 持 和 随机 子 抽样 (5. 6. 2 节 ) & 折 交 
又 验证 (5.6.3 节 ) 和 自助 方法 (5. 6.4 节 ) 都 是 基于 给 定数 据 的 随机 抽样 划分 。5. 6. 5 节 
讨论 如 何 使 用 统计 显著 性 检验 来 评估 两 个 分 类 器 的 准确 率 之 差 是 否 纯 属 偶然 。 
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5.6.1 评估 分 类 器 性 能 的 度量 


本 节 介绍 一 些 评估 度量 ,用 来 评估 分 类 器 预测 元 组 类 标号 的 性 能 或 准确 率 。 这 里 既 
考虑 各 类 元 组 大 致 均匀 分 布 的 情况 ,也 考虑 类 不 平衡 的 情况 (例如 ,在 医学 化 验 中 , 感 兴趣 
的 重要 类 稀少 )。 本 节 介 绍 的 分 类 器 评估 度量 汇总 在 表 5-4 中 ,包括 准确 率 ( 又 称 为 识别 
率 ) 敏感 度 (或 称 为 召回 率 ) 、 特 效 性 、 精 度 、F 和 Fs。 表 中 , 某 些 度量 有 多 个 名 称 。TP、 
TN,FP,FN, P, N 分 别 代表 真 正 例 、 真 负 例 、 假 正 例 \ 假 负 例 、 正 和 负 样 本 数 。 注 意 ,尽管 
准确 率 是 一 个 特定 的 度量 ,但 是 “准确 率 ” 一 词 也 是 经 常用 于 谈论 分 类 器 预测 能 力 的 通用 
术语 。 

表 5-4 分 类 器 ,评估 度量 





























E R a R 
准确 率 .识别 率 aN 
错误 率 . 误 分 类 率 了 
敏感 度 、 真 正 例 率 、 召 回 率 T 
特效 性 、 真 负 例 率 & 
精度 op 
PVF, 下 分 数 2X precision X recall 
精度 和 召回 率 的 调和 均值 ~precision+ recall _ 
Fr JUR 是非 负 实数 





还 有 4 个 需要 知道 的 术语 。 这 些 术 语 是 用 于 计算 许多 评估 度量 的 “构件 ”, 理 解 它们 


有 助 于 领会 各 种 度量 的 含义 。 
。 真正 例 / 真 阳性 (True Positive. TP): 是 指 被 分 类 器 正确 分 类 的 正 元 组 。 令 TP 为 
真正 例 的 个 数 。 
。 真 负 例 / 真 阴性 (True Negative, TN): 是 指 被 分 类 器 正确 分 类 的 负 元 组 。 令 TN 
为 真 负 例 的 个 数 。 


。 假 正 例 / 假 阳性 (False Positive, FP); 是 被 错误 地 标记 为 正 元 组 的 负 元 组 (例如 ， 
类 buys_computer= no 的 元 组 被 分 类 器 预测 为 buys_computer 一 yes)。 令 FP 为 
假 正 例 的 个 数 。 

。 假 负 例 / 假 阴性 (False Negative, FN): 是 被 错误 地 标记 为 负 元 组 的 正 元 组 (例如 ， 
类 buys_computer= yes 的 元 组 被 分 类 器 预测 为 buys_computer 一 no)。 4 FN 为 
假 负 例 的 个 数 。 

这 些 术语 汇总 在 图 5-29 的 混淆 矩阵 (confusion matrix) 中 。 

混淆 和 矩阵 是 分 析 分 类 器 识别 不 同类 元 组 的 一 种 有 用 工具 。TP 和 TN 告诉 我 们 分 类 
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预测 的 类 合计 
yes no 
ae ? yes TP FN P 
实际 的 类 = a N 
合计 P N |P+N 




















图 5-29 一 个 混淆 矩阵 ,显示 了 正 元 组 和 负 元 组 的 合计 


器 何 时 分 类 正确 ,而 FP 和 FN 告诉 我 们 分 类 器 何 时 分 类 错误 。 给 定 疡 个 类 (m 2), 混 
兆 矩 阵 是 一 个 至 少 为 mXm WR. Bil m FAM m 列 中 表 项 CM;, 表 示 类 ;的 元 组 被 分 类 器 
标记 为 类 j 的 个 数 。 理 想 地 ,对 于 具有 高 准确 率 的 分 类 器 ,大 部 分 元 组 应 该 被 混淆 矩阵 从 
CM, 到 CMw.w 的 对 角 线 上 的 表 项 表示 ,而 其 他 表 项 为 0 或 者 接近 0。 也 就 是 说 ,FP 和 
FN 接近 0。 

该 表 可 能 有 附加 的 行 和 列 , 提 供 合计 。 例 如 ,在 图 5-29 的 混淆 和 矩阵 中 ,显示 了 P 和 
N。 此 外 ,P' 开 始 被 分 类 器 标记 为 正 的 元 组 数 (TP 十 FP),N“ 被 标记 为 负 的 元 组 数 (TN 十 
FN) 。 元 组 的 总 数 为 TP 十 TN 十 FP 十 PN, 或 P 十 N, 或 P' 十 N'。 注 意 ,尽管 所 显示 的 混 
清和 矩阵 是 针对 二 元 分 类 问题 的 ,但 是 很 容易 用 类 似 的 方法 给 出 多 类 问题 的 混淆 矩阵 。 

现在 ,从 准确 率 开始 考察 评估 度量 。 分 类 器 在 给 定 检 验 集 上 的 准确 率 (accuracy) 是 
被 该 分 类 器 正确 分 类 的 元 组 所 占 的 百分比 , 即 


TP+TN 
PN 


在 模式 识别 文献 中 ,准确 率 又 被 称 为 分 类 器 的 总 体 识别 率 , 即 它 反映 分 类 器 对 各 类 元 组 的 
正确 识别 情况 。 

也 可 以 评估 分 类 器 M 的 错误 率 或 误 分 类 率 , 它 是 1 一 accuracyCM) ,其 中 accuracy(CM) 是 
M 的 准确 率 。 它 也 可 以 用 下 式 计算 


(5-22) 





accuracy = 


FP+FN 
P+N 
如 果 想 使 用 训练 集 ( 而 不 是 检验 集 ) 来 估计 模型 的 错误 率 , 则 该 量 称 为 再 代入 误差 
(resubstitution error) 。 这 种 错误 估计 是 实际 错误 率 的 乐观 估计 (类 似 地 ,对 应 的 准确 率 
估计 也 是 乐观 的 ) ,因为 并 未 在 没有 见 过 的 样本 上 对 模型 进行 检验 。 

现在 ,考虑 类 不 平衡 问题 ,其 中 感 兴趣 的 主 类 是 稀少 的 。 也 就 是 说 ,数据 集 的 分 布 反 
映 负 类 显著 地 占 多 数 , 而 正 类 占 少 数 。 例 如 ,在 欺诈 检测 应 用 中 , 感 兴趣 的 类 (或 正 类 ) 是 
fraud( 欺 诈 ), 它 的 出 现 远 不 及 负 类 nonfraudulant( 非 欺诈 ) 频 繁 。 在 医疗 数据 中 ,可 能 也 
有 稀有 类 ,如 cancer, 而 可 能 的 类 值 是 yes 和 no。97% 的 准确 率 使 得 分 类 器 看 上 去 相当 准 
确 ,但 是 ,如 果实 际 只 有 3% 的 训练 元 组 是 癌症 ,显然 ,97% 的 准确 率 可 能 不 是 可 接受 的 。 
例如 ,该 分 类 器 可 能 只 是 正确 地 标记 了 非 癌 症 元 组 ,而 对 所 有 癌症 元 组 的 分 类 都 是 错误 
的 。 因 此 ,需要 其 他 的 度量 来 评估 分 类 器 正确 地 识别 正 元 组 (cancer 二 yes) 的 情况 和 正确 
地 识别 负 元 组 (cancer 一 no) 的 情况 。 

为 此 ,可 以 分 别 使 用 灵敏 性 (sensitivity) 和 特效 性 (specificity) 度 量 。 灵 敏 度 也 称 为 
真正 例 (识别 ) 率 ( 即 正 确 识 别 的 正 元 组 的 百分比 ) ,而 特效 性 是 真 负 例 率 ( 即 正确 识别 的 负 
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error_rate = 
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元 组 的 百分比 )。 这 两 个 度量 定义 为 


2 
sensitivity = 





P 
P (5-24) 
specificity = TN (5-25) 
可 以 证 明 准确 率 是 灵敏 性 和 特效 性 度量 的 函数 : 
Slee P TE N 
accuracy = sensitivity PFN + specificity BN (5-26) 


精度 和 召回 率 度量 也 在 分 类 中 广泛 使 用 。 精 度 (precision) 可 以 看 作 是 精确 性 的 度量 
( 即 标记 为 正 类 的 元 组 中 实际 为 正 类 所 占 的 百分比 ), 而 召回 率 (recall) 是 完全 性 的 度量 
( 即 正 元 组 标记 为 正 的 百分比 )。 召 回 率 看 上 去 熟悉 ,因为 它 就 是 灵敏 性 (或 真正 例 率 )。 
这 些 度量 可 以 用 下 面 的 公式 计算 : 
TP 


precision = TP FP (5-27) 
2. IF = oP s 
recall = IPIN P (5-28) 


另 一 种 使 用 精度 和 召回 率 的 方法 是 把 它们 组 合 到 一 个 度量 中 。 这 是 下 度量 (又 称 为 
Fi 分 数 或 下 分 数 ) 和 Fe 度量 的 方法 ,定义 如 下 : 


F — 2X precision X recall (5-29) 
precision + recall 


F (1+ 8°) X precision X recall 
f B? X precision + recall 


其 中 ,8 是 非 负 实数 。 正 度量 是 精度 召回 率 的 调和 均值 。 它 赋予 精度 和 召回 率 相 等 的 权 
E. Fey 度量 是 精度 和 召回 率 的 加 权 度 量 。 它 赋予 召回 率 的 权重 是 赋予 精度 的 权重 的 8 
倍 。 通 常 使 用 的 Fs 是 FE:( 它 赋予 召回 率 的 权重 是 精度 的 2 倍 ) 和 Fo.s ( 它 赋予 精度 的 权 
重 是 召回 率 的 2 倍 ) 。 

在 分 类 问题 中 ,通常 假定 所 有 的 元 组 都 是 唯一 可 分 类 的 , 即 每 个 训练 元 组 都 只 属于 一 
个 类 。 然 而 ,由 于 大 型 数据 库 中 的 数据 非常 多 样 化 .因此 假定 每 个 元 组 可 以 属于 多 个 类 是 
更 可 行 的 。 这 样 ,如 何 度量 大 型 数据 库 上 分 类 器 的 准确 率 呢 ? 准确 率 度量 是 不 合适 的 , 因 
为 它 没 考虑 元 组 属于 多 个 类 的 可 能 性 。 

有 用 的 是 返回 类 分 布 概率 ,而 不 是 返回 类 标号 。 这 样 ,准确 率 度量 可 以 采用 二 次 猜测 
(second guess) 试 探 : 如 果 一 个 类 预测 与 最 可 能 的 或 次 可 能 的 类 一 致 , 则 这 个 类 预测 被 认 
为 是 正确 的 。 尽 管 这 在 某 种 程度 上 确实 考虑 了 元 组 的 非 唯一 分 类 ,但 它 不 是 完全 解 。 

除了 基于 准确 率 的 度量 外 ,还 可 以 根据 其 他 比较 分 类 器 ; 

。 速度 。 这 涉及 产生 和 使 用 分 类 器 的 计算 开销 。 

。 和 鲁 棒 性 。 这 是 假定 数据 有 噪声 或 有 缺失 值 时 分 类 器 做 出 正确 预测 的 能 力 。 通 常 ， 

鲁 棒 性 用 噪声 和 缺失 值 渐 增 的 一 系列 合成 数据 集 评估 。 

。 可 伸缩 性 。 这 涉及 给 定 大 量 数据 ,有 效 地 构造 分 类 器 的 能 力 。 通 常 ,可 伸缩 性 用 

规模 渐 增 的 一 系列 数据 评估 。 

。 可 解释 性 。 这 涉及 分 类 器 或 预测 器 提供 的 理解 和 洞察 水 平 。 可 解释 性 是 主观 的 ， 
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因而 很 难 评估 。 决 策 树 和 分 类 规则 可 能 容易 解释 ,但 随 着 它们 变 得 复杂 ,它们 的 
可 解释 性 也 随 之 消失 。 


5.6.2 保持 方法 和 随机 二 次 抽样 


保持 (holdout) 方 法 是 迄今 为 止 讨论 准确 率 时 暗 指 的 方法 。 在 这 种 方法 中 ,给 定数 据 
随机 地 划分 成 两 个 独立 的 集合 : 训练 集 和 检验 集 。 通 常 ,2/3 的 数据 分 配 到 训练 集 ,其 余 
1/3 分 配 到 检验 集 。 使 用 训练 集 导 出 模型 ,其 准确 率 用 检验 集 估计 ( 见 图 5-30)。 估 计 是 
悲观 的 ,因为 只 有 一 部 分 初始 数据 用 于 导出 模型 。 


区 导出 

j 训练 集 模型 

/ 

CY 

X 
\ 





N 


` 
\ 
检验 集 


图 5-30 用 保持 方法 估计 准确 率 








随机 二 次 抽样 (random subsampling) 是 保持 方法 的 一 种 变形 , 它 将 保持 方法 重复 
次 。 总 准确 率 估计 取 每 次 迭代 准确 率 的 平均 值 。 


5.6.3 交叉 验证 


在 & 折 交叉 验证 (和 fold cross-validation) 中 ,初始 数据 被 随机 地 划分 成 k 个 互 不 相交 
TERP D Ds D ,每 个 折 的 大 小 大 致 相等 。 训 练 和 检验 进行 k 次 。 在 第 i 次 
FEAR SPER D: 用 做 检验 集 , 其 余 的 分 区 一 起 用 做 训练 模型 。 也 就 是 说 ,在 第 一 次 迭代 , 子 
Æ D;,D;,…,D, 一 起 作为 训练 集 , 得 到 第 一 个 模型 ,并 在 D 上 检验 ;第 二 次 迭代 ,在 子 
集 Di, Ds, Dise Di 上 训练 ,并 在 De 上 检验 ;如 此 下 去 。 与 上 面 的 保持 和 随机 二 次 抽样 
不 同 , 这 里 的 每 个 样本 用 于 训练 的 次 数 相同 ,并 且 用 于 检验 一 次 。 对 于 分 类 ,准确 率 估计 
是 & 次 迭代 正确 分 类 的 元 组 总 数 除 以 初始 数据 中 的 元 组 总 数 。 

留 一 (leave-one-out) 是 尺 折 交叉 验证 的 特殊 情况 ,其 中 & 设置 为 初始 元 组 数 。 也 就 
是 说 ,每 次 只 给 检验 集 * 留 出 ”一 个 样本 。 在 分 层 交 叉 验 证 (stratified corss-validation) 中 ， 
折 被 分 层 , 使 得 每 个 折 中 样本 的 类 分 布 与 在 初始 数据 中 的 类 分 布 大 致 相同 。 

一 般 地 ,建议 使 用 分 层 10 折 交 叉 验证 估计 准确 率 ( 即 使 计算 能 力 允 许 使 用 更 多 的 
折 ) ,因为 它 具 有 相对 较 低 的 偏 傈 和 方差 。 


5.6.4 自助 法 


与 上 面 提 到 的 准确 率 估计 方法 不 同 .自助 法 (bootstrap) 从 给 定 训 练 元 组 中 有 放 回 地 
均匀 抽样 。 也 就 是 说 ,每 当选 中 一 个 元 组 , 它 等 可 能 地 被 再 次 选中 并 被 再 次 添加 到 训练 集 
中 。 例 如 ,想象 一 台 从 训练 集中 随机 选择 元 组 的 机 器 。 在 有 放 回 的 抽样 中 ,允许 机 器 多 次 
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选择 同一 个 元 组 。 

有 多 种 自助 方法 。 最 常用 的 一 种 是 “. 632” 自 助 法 ,其 方法 如 下 。 假 设 给 定 的 数据 集 
包含 d 个 元 组 。 该 数据 集 有 放 回 地 抽样 4 次 ,产生 a 个 样本 的 自助 样本 集 或 训练 集 。 原 
数据 元 组 中 的 某 些 元 组 很 可 能 在 该 样本 集中 出 现 多 次 。 没 有 进入 该 训练 集 的 数据 元 组 最 
终 形成 检验 集 。 假 设 进行 多 次 这 样 的 抽样 。 其 结果 是 ,在 平均 情况 下 ,63.2% 的 原 数 据 元 
组 将 出 现在 自助 样本 中 ,而 其 余 36. 8% 的 元 组 将 形成 检验 集 。 

数字 63.2% 从 何 而 来 ?每 个 元 组 被 选中 的 概率 是 1/d, 因 此 未 被 选中 的 概率 是 1 一 
1/d。 需 要 挑选 4 次 ,因此 一 个 元 组 在 d 次 挑选 都 未 被 选中 的 概率 是 (1 一 1/d)”。 如 果 d 
很 大 ,该 概率 近似 为 e :一 0.368, 因 此 36. 8% 的 元 组 未 被 选 为 训练 元 组 而 留 在 检验 集中 ， 
FEAR 63. 2% 的 元 组 将 形成 训练 集 。 

可 以 重复 抽样 过 程 人 次 ,在 每 次 迭代 中 ,使 用 当前 的 检验 集 得 到 从 当前 自助 样本 得 到 
的 模型 的 准确 率 估计 。 模 型 的 总 体 准确 率 则 用 下 式 估计 : 


k 
Acc(M) = >) (0, 632 X Ace (M;) wss +0. 368 X Ace (M,)eninset (5-31) 


其 中 ,AceCM) i 是 自助 样本 ;得 到 的 模型 用 于 检验 集 ; 的 准确 率 。AcecCM sina JE FA 
助 样本 ;得 到 的 模型 用 于 原 数 据 元 组 集 的 准确 率 。 对 于 小 数据 集 ,自助 法 效果 很 好 。 


5.6.5 使 用 统计 显著 性 检验 选择 模型 


假设 已 经 由 数据 产生 了 两 个 分 类 模型 M 和 Ms 。 已 经 进行 了 10 折 交 叉 验 证 ,得 到 
了 每 个 的 平均 错误 率 。 如 何 确定 哪个 模型 最 好 ? 直观 地 ,可 以 选择 具有 最 低 错误 率 的 模 
型 。 然 而 ,平均 错误 率 只 是 对 未 来 数据 真实 总 体 上 的 错误 估计 。10 折 交 叉 验 证 试验 的 错 
误 率 之 间 可 能 存在 相当 大 的 方差 。 尽 管 由 M 和 M: 得 到 的 平均 错误 率 看 上 去 可 能 不 同 ， 
但 是 差别 可 能 不 是 统计 显著 的 。 如 果 两 者 之 间 的 差别 可 能 只 是 偶然 的 ,怎么 办 ? 本 节 讨 
论 这 些 问 题 。 

为 了 确定 两 个 模型 的 平均 错误 率 是 否 存 在 “真正 的 ”差别 ,需要 使 用 统计 显著 性 检验 。 
此 外 ,希望 得 到 平均 错误 率 的 置信 和 界 , 以 便 做 出 这 样 的 陈述 :“ 对 于 未 来 样本 的 95% ,观测 
到 的 均值 将 不 会 偏离 正 、 负 两 个 标准 差 " 或 者 "一 个 模型 比 男 一 个 模型 好 ,误差 幅度 为 
EE 

为 了 进行 统计 检验 ,我 们 需要 什么 ? 假设 对 于 每 个 模型 ,我 们 做 了 10 次 10 折 交 叉 验 
证 ,每 次 使 用 数据 的 不 同 10 折 划 分 。 每 个 划分 都 独立 地 抽取 。 可 以 分 别 对 M, 和 M: 得 
到 的 10 个 错误 率 取 平均 值 ,得 到 每 个 模型 的 平均 错误 率 。 对 于 一 个 给 定 的 模型 ,在 交叉 
验证 中 计算 的 每 个 错误 率 都 已 看 作 是 来 自 一 种 概率 分 布 的 不 同 的 独立 样本 ,一般 地 ,它们 
服从 具有 一 1 个 自由 度 的 :分布 , 其 中 二 10( 该 分 布 看 上 去 很 像 正 态 分 布 或 高 斯 分 布 ， 
尽管 定义 这 两 个 分 布 的 函数 很 不 相同 。 两 个 分 布 都 是 单 峰 的 、 对 称 的 和 钟 形 的 )。 这 使 得 
我 们 可 以 做 假设 检验 ,其 中 所 使 用 的 显著 性 检验 是 1 检验 ,或 研究 者 的 1 检验 (student's 
test) 。 假 设 这 两 个 模型 相同 ,换言之 ,两 者 的 平均 错误 率 之 差 为 0。 如 果 能 够 拒绝 该 假 
设 ( 称 为 原 假设 (null hypothesis)), 则 可 以 断言 两 个 模型 之 间 的 差 是 统计 显著 的 ,在 此 情 
况 下 ,可 以 选择 具有 较 低 错误 率 的 模型 。 
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在 数据 挖掘 实践 中 ,通常 使 用 单个 检验 集 , 即 可 能 对 M, 和 M 使 用 相同 的 检验 集 。 
在 这 种 情况 下 ,对 于 10 折 交 叉 验 证 的 每 一 轮 ,比较 M 和 M: 两 个 模型 ( 苦 有 多 个 模型 , 则 
每 两 个 模型 间 都 需 比较 ) 。 也 就 是 说 ,对 于 10 折 交 叉 验证 的 第 i 轮 , 使 用 相同 的 交叉 验证 
划分 得 到 Mi 的 错误 率 和 M 的 错误 率 。 设 err(M,); 和 err(M,); 是 模型 M， 和 M 在 第 
i 轮 的 错误 率 。 对 M 的 错误 率 取 平均 值得 到 M 的 平均 错误 率 , 记 为 errM 。 类 似 地 ,可 
以 得 到 errM。。 两 个 模型 差 的 方差 记 为 var(M —M:). t 检验 计算 & 个 样本 具有 A 一 1 自 
由 度 的 + 统计 量 。 在 这 个 例子 中 .k 二 10, 因 为 这 里 的 个 样本 是 从 每 个 模型 的 10 折 交 叉 
验证 中 得 到 的 错误 率 。 两 个 模型 比较 的 1 统计 量 按 下 式 计算 : 

err(M, ) — err(M2) 


t= 一 一 -一 一 (5-32) 
var(M, — M,)/k 
其 中 ， 
k 
var(M, — M,) =F Derr (My), —err (M,); 
i=l 
— (err (My); — err (M2);) }? (5-33) 


为 了 确定 M 和 Ms: 是 否 显著 不 同 ,计算 : 并 选择 显著 水 平 sig。 在 实践 中 ,通常 使 用 5% 
或 1% 的 显著 水 平 。 然 后 ,在 标准 的 统计 学 教科 书 中 查找 1 分 布 表 。 通 常 ,该 表 以 自由 度 
为 行 ,显著 水 平 为 列 。 假 定 要 确定 M 和 My, 之 间 的 差 对 总 计 的 95% CBD sig 二 5% 或 
0.05) 是 否 显 著 不 同 。 需 要 从 该 表 查 找 对 应 于 一 1 个 自由 度 ( 对 于 本 例 , 自 由 度 为 9) 的 1 
分 布 值 。 然 而 ,由 于 1 分 布 是 对 称 的 ,通常 只 显示 分 布 上 部 的 百分点 。 因 此 , 找 z= sig/2 
=0, 025 的 表 值 ,其 中 < 也 称 为 置信 和 界 (confident limit)。 如 果 1 二 x 或 1 二 一 x, 则 1 值 落 在 
拒 斥 域 ,在 分 布 的 尾部 。 这 意味 可 以 拒绝 M, 和 M 的 均值 相同 的 原 假设 ,并 断言 两 个 模 
型 之 间 存 在 统计 显著 的 差别 。 否 则 ,如 果 不 能 拒绝 原 假设 ,于 是 断言 M 和 M, 之 间 的 差 
可 能 是 随机 的 。 

如 果 有 两 个 检验 集 而 不 是 单个 检验 集 , 则 使 用 1 检验 的 非 逐 对 版 本 ,其 中 两 个 模型 的 
均值 之 间 的 方差 估计 为 


var(M, — M,) cur) 
2 


其 中 , Al ke 分 别 用 于 M, 和 Ms 的 交叉 验证 样本 数 (在 本 例 的 情况 下 ,为 10 折 交 叉 验 证 
的 轮 数 ) 。 这 也 是 两 个 样本 的 上 检验 。 在 查 :分布 表 时 ,自由 度 取 两 个 模型 的 最 小 自 
由 度 。 








var(M, ) 
k 


ia (5-34) 


57 组 合 分 类 器 技术 


组 合 分 类 器 (ensemble) 是 一 个 复合 模型 ,由 多 个 分 类 器 组 合 而 成 。 个 体 分 类 器 投票 ， 
组 合 分 类 器 基于 投票 返回 类 标号 预测 。 组 合 分 类 器 比 它 的 成 员 分 类 器 更 准确 。 

在 5.7.1 节 ,介绍 一 般 性 组 合 分 类 方法 。 后 面 几 节 分 别 介绍 了 装 袋 (5.7. 2 节 )、 提 升 
(5.7.3 节 ) 和 随机 森林 (5. 7.4 节 )。5. 7.5 节 介 绍 了 提高 类 不 平衡 数据 分 类 准确 率 的 
DE 
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5.7.1 组 合 分 类 方法 简介 


装 袋 .提升 和 随机 森林 都 是 组 合 分 类 方法 的 例子 。 组 合 分 类 把 & 个 学 习 得 到 的 模型 
(或 基 分 类 器 ) Mi ,M;,… M, 组 合 在 一 起 , 旨 在 创建 一 个 改进 的 复合 分 类 模型 M” 。 使 用 
给 定 的 数据 集 DUEk PIER Di. Des Di SEP D; 用 于 创建 分 类 器 M;。 给 定 一 个 
待 分 类 的 新 数据 元 组 ,每 个 基 分 类 器 通过 返回 类 预测 投票 。 组 合 分 类 器 基于 基 分 类 器 的 
投票 返回 类 预测 。 

组 合 分 类 器 往往 比 它 的 基 分 类 器 更 准确 。 理 想 情 况 下 , 基 分 类 器 之 间 几 乎 不 相关 。 
基 分 类 器 还 应 该 优 于 随机 猜测 。 每 个 基 分 类 器 都 可 以 分 配 到 不 同 的 CPU 上 ,因此 组 合 
分 类 方法 是 可 并 行 的 。 


5.7.2 $B 


先 直 观 地 考察 装 袋 (bagging) 是 如 何 提 高 准确 率 的 。 假 设 你 是 一 个 病人 ,希望 根据 你 
的 症状 做 出 诊断 。 你 可 能 选择 看 多 个 医生 ,而 不 是 一 个 。 如 果 某 种 诊断 比 其 他 诊断 出 现 
的 次 数 多 , 则 你 可 能 将 它 作为 最 终 或 最 好 的 诊断 。 也 就 是 说 ,最 终 诊断 是 根据 多 数 表决 做 
出 的 ,其 中 每 个 医生 都 具有 相同 的 投票 权重 。 现 在 ,将 医生 换 成 分 类 器 ,就 可 以 得 到 装 袋 
的 基本 思想 。 直 观 地 ,更 多 医生 的 多 数 表 决 比 少数 医生 的 多 数 表决 更 可 靠 。 

给 定 d 个 元 组 的 集合 D , 装 袋 (bagging) 过 程 如 下 。 对 于 和 迭代 ii 一 1,2,…,),d 个 
元 组 的 训练 集 D: 采用 有 放 回 抽样 ,由 原始 元 组 集 D 抽取 。 注 意 , 术 语 装 袋 表 示 自 助 聚集 
(bootstrap aggregation) 。 每 个 训练 集 都 是 一 个 自助 样本 。 由 于 使 用 有 放 回 抽样 ,D 的 某 
些 元 组 可 能 不 在 D; 中 出 现 , 而 其 他 元 组 可 能 出 现 多 次 。 由 每 个 训练 集 D: 学 习 , 得 到 一 个 
分 类 模型 M;。 为 了 对 一 个 未 知 元 组 XX 分 类 ,每 个 分 类 器 M; 返回 它 的 类 预测 , 算 作 一 票 。 
装 袋 分 类 器 M 统计 得 票 ,并 将 得 票 最 高 的 类 赋予 X。 通 过 取 给 定 检验 元 组 的 每 个 预测 
平均 值 , 装 袋 也 可 以 用 于 连续 值 的 预测 。 算 法 如 图 5-31 所 示 。 
算法 5-2 : 装 袋 算法 一 一 为 学 习 方案 创建 组 合 分 类 模型 ， 其 中 每 个 模型 给 出 等 权重 预测 。 
waar d 个 训练 元 组 的 集合 ; 

ok: 组 合 分 类 器 中 的 模型 数 ; 


* 一 种 学 习 方 案 (例如 ， 决 策 树 算法 、 后 向 传播 等 ) 
ai 组 合 分 类 器 一 一 复合 模型 M" 。 


(1) for i=1 to tdoy/ 创 建 ( 个 模型 

(2) 通过 对 D 进 行 有 放 回 抽样 ， 创 建 自助 样本 D;; 
(3) 使 用 D, 和 学 习 方法 导出 模型 M;; 

(4) endfor 


使 用 组 合 分 类 器 对 元 组 X 分 类 : 
让 k 个 模型 都 对 X 分 类 并 返回 多 数 表决 ; 


图 5-31 装 袋 算法 











装 袋 分 类 器 的 准确 率 通常 显著 高 于 从 原 训练 集 D 导出 的 单个 分 类 器 的 准确 率 。 对 
于 噪声 数据 和 过 分 拟 合 的 影响 , 它 也 不 会 很 差 并 且 更 鲁 棒 。 准 确 率 的 提高 是 因为 复合 模 
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型 降低 了 个 体 分 类 器 的 方差 。 
5.7.3 提升 和 AdaBoost 


现在 考察 组 合 分 类 方法 提升 。 与 5.7. 2 节 一 样 ,假设 你 是 一 位 患者 ,有 某 些 症状 。 你 
选择 咨询 多 位 医生 ,而 不 是 一 位 。 假 设 你 根据 医生 先前 的 诊断 准确 率 对 每 位 医生 的 诊断 
赋予 一 个 权重 ,然后 ,将 这 些 加 权 诊断 的 组 合作 为 最 终 的 诊断 。 这 就 是 提升 的 基本 思想 。 

在 提升 (boosting) 方 法 中 ,权重 赋予 每 个 训练 元 组 。 和 迭代 地 学 习 & 个 分 类 器 。 学 习 
得 到 分 类 器 M 之 后 ,更 新 权重 ,使 得 其 后 的 分 类 器 Mi+ 尽 更 关注 >M; 误 分 类 的 训练 元 组 。 
最 终 提升 的 分 类 器 M 组 合 每 个 个 体 分 类 器 的 表决 ,其 中 每 个 分 类 器 投票 的 权重 是 其 准 
确 率 的 函数 。 

AdaBoost( Adaptive Boosting) 是 一 种 流行 的 提升 算法 。 假 设 我 们 想 提升 某 种 学 习 方 
法 的 准确 率 。 给 定数 据 集 D CUR d 个 类 标记 的 元 组 (Xi,y1), (Xs sy.) sts Kasya)» 
其 中 y; 是 元 组 X; 的 类 标号 。 开 始 ,AdaBoost 对 每 个 训练 元 组 赋予 相等 的 权重 1/4。 为 
组 合 分 类 器 产生 & 个 基 分 类 器 需要 执行 算法 的 其 余部 分 & 轮 。 在 第 i 轮 , 从 DD 中 元 组 抽 
样 ,形成 大 小 为 a 的 训练 集 D;。 使 用 有 放 回 抽样 一 一 同一 个 元 组 可 能 被 选中 多 次 。 每 个 
元 组 被 选中 的 机 会 由 它 的 权重 决定 。 从 训练 集 D: 导出 分 类 器 M: ,然后 使 用 D; 作为 检验 
集 计 算 M: 的 误差 。 训 练 元 组 的 权重 根据 它们 的 分 类 情况 调整 。 

如 果 元 组 分 类 不 正确 , 则 它 的 权重 增加 。 如 果 元 组 分 类 正确 , 则 它 的 权重 减少 。 元 组 
的 权重 反映 对 它们 分 类 的 困难 程度 一 一 权重 越 高 , 越 可 能 错误 地 分 类 。 然 后 ,使 用 这 些 权 
重 ,为 下 一 轮 的 分 类 器 产生 训练 样本 。 其 基本 思想 是 , 当 建立 分 类 器 时 ,希望 它 更 关注 上 
一 轮 错误 分 类 的 元 组 。 某 些 分 类 器 对 某 些 “困难 ?元 组 分 类 可 能 比 其 他 分 类 器 好 。 这 样 ， 
建立 了 一 个 互补 的 分 类 器 系列 。 

现在 考察 该 算法 涉及 的 某 些 数学 问题 。 为 了 计算 模型 M; 的 错误 率 , 求 M; 误 分 类 
D: 中 的 每 个 元 组 的 加 权 和 : 





d 
error(M;) = >) w; X err(X;) (5-35) 
imi 


其 中 err(X;) 是 元 组 的 误 分 类 误差 : 如 果 局 被 误 分 类 , 则 err(X;) 为 1; FM. EA 0. 
如 果 分 类 器 M: 的 性 能 太 差 ,错误 率 超过 0. 5, 则 丢弃 它 ,并 重新 产生 新 的 训练 集 Di ,由 它 


导出 新 的 M: 
M; 的 错误 率 影响 训练 元 组 权重 的 更 新 。 如 果 一 个 元 组 在 第 i 轮 正确 分 类 , 则 其 权重 
乘 以 error(Mi)/(1 一 error(M;))。 一 旦 所 有 正确 分 类 元 组 的 权重 都 被 更 新 ,就 对 所 有 元 


组 的 权重 (包括 误 分 类 的 元 组 ) 规 范 化 ,使 得 它们 的 和 与 以 前 一 样 。 为 了 规范 化 权重 ,将 它 
乘 以 旧 权 重 之 和 。 结 果 , 正 如 上 面 介绍 的 一 样 , 误 分 类 元 组 的 权重 增加 ,而 正确 分 类 元 组 
的 权重 减少 。 

一 旦 提升 完成 ,如 何 使 用 分 类 器 的 组 合 预测 元 组 X 的 类 标号 ? 与 装 袋 将 相同 的 表决 
权 赋 予 每 个 分 类 器 的 方法 不 同 ,提升 根据 分 类 器 的 分 类 情况 ,对 每 个 分 类 的 表决 权 赋予 一 
个 权重 。 分 类 器 的 错误 率 越 低 , 它 的 准确 率 就 越 高 ,因此 它 的 表决 权重 就 应 当 越 高 。 分 类 
器 M: 的 表决 权重 为 
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1 — error( M; ) 
error(M;) 


对 于 每 个 类 c, 求 每 个 将 类 c 指派 给 X 的 分 类 器 的 权重 之 和 。 具 有 最 大 权重 和 的 类 是 “ 赢 
家 ”, 并 返回 作为 元 组 X 的 类 预测 。 

由 于 提升 关注 误 分 类 元 组 ,所 以 存在 结果 复合 模型 对 数据 过 分 拟 合 的 危险 。 因 此 , 提 
升 的 模型 有 时 可 能 没有 从 相同 数据 导出 的 单一 模型 的 准确 率 高 。 装 袋 不 太 受 过 分 拟 合 的 
影响 。 尽 管 与 单个 模型 相 比 ,提升 与 装 袋 都 能 够 显著 提高 准确 率 ,但 是 提升 往往 得 到 更 高 
的 准确 率 。 


5.7.4 随机 森林 


本 节 介 绍 一 种 组 合 方法 , 称 为 随机 森林 。 想 象 组 合 分 类 器 中 的 每 个 分 类 器 都 是 一 棵 
决策 树 ,因此 分 类 器 的 集合 就 是 一 个 森林 。 个 体 决策 树 在 每 个 节点 使 用 随机 选择 的 属性 
决定 划分 。 更 准确 地 说 ,每 一 棵 树 都 依赖 于 独立 抽样 ,并 与 森林 中 所 有 树 具 有 相同 分 布 的 
随机 向 量 的 值 。 分 类 时 ,每 棵 树 都 投票 并 且 返 回 得 票 最 多 的 类 。 

随机 森林 可 以 使 用 装 袋 与 随机 属性 选择 结合 来 构建 。 给 定 d 个 元 组 的 训练 集 DD, 组 
合 分 类 器 产生 & 棵 决策 树 的 一 般 过 程 如 下 。 对 于 每 次 选 代 ii 一 1,2,…,A) ,使 用 有 放 回 
抽样 ,由 D 产生 4 个 元 组 的 训练 集 D;。 也 就 是 说 ,每 个 D; 都 是 D 的 一 个 自助 样本 ,使 得 
某 些 元 组 可 能 在 D; 出 现 多 次 ,而 另 一 些 可 能 不 出 现 。 设 下 是 用 来 在 每 个 节点 决定 划分 
的 属性 数 ,其 中 下 远 小 于 可 用 属性 数 。 为 了 构造 决策 树 分 类 器 M ,在 每 个 节点 随机 选择 
下 个 属性 作为 该 节点 划分 的 候选 属性 。 使 用 CART 算法 的 方法 使 树 增长 到 最 大 规模 ,并 
且 不 剪 枝 。 用 这 种 方式 ,使 用 随机 输入 选择 形成 的 随机 森林 称 为 Forest-RI。 

随机 森林 的 另 一 种 形式 称 为 Forest-RC, 使 用 输入 属性 的 随机 线性 组 合 。 它 不 是 随 
机 地 选择 一 个 属性 子 集 ,而 是 由 已 有 属性 的 线性 组 合 创建 一 些 新 属性 (特征 ), 即 一 个 属性 
由 指定 的 工 个 原 属性 组 合 产生 。 在 每 个 给 定 的 节点 ,随机 选择 工 个 属性 ,并 且 以 从 [一 1， 
1 中 随机 选取 的 数 为 系数 相 加 .产生 下 个 线性 组 合 ,并 在 其 中 搜索 找到 最 佳 划 分 。 当 只 
有 少量 属性 可 用 时 ,为 了 降低 个 体 分 类 器 之 间 的 相关 性 ,可 以 采用 这 种 形式 的 随机 和 森林。 

随机 森林 的 准确 率 可 以 与 AdaBoot 相 媲 美 ,但 是 对 错误 和 离 群 点 更 鲁 棒 。 随 着 森林 
中 树 的 个 数 增加 ,森林 的 泛 化 误差 收敛 。 因 此 .过 拟 合 不 是 问题 。 随 机 森林 的 准确 率 依赖 
于 个 体 分 类 器 的 实例 和 它们 之 间 的 依赖 性 。 理 想 情 况 是 保持 个 体 分 类 器 的 能 力 而 不 是 提 
高 它们 的 相关 性 。 随 机 森林 对 每 次 划分 所 考虑 的 属性 数 很 敏感 。 通 常 选取 log, d 十 1 个 
属性 。 由 于 随机 森林 在 每 次 划分 时 只 考虑 很 少 的 属性 ,因此 它们 在 大 型 数据 库 上 非常 有 
效 。 它 们 可 能 比 装 袋 和 提升 更 快 。 随 机 森林 给 出 了 变量 重要 性 的 内 在 估计 。 


5.7.5 提高 类 不 平衡 数据 的 分 类 准确 率 


本 节 再 次 考虑 类 不 平衡 问题 ,主要 研究 提高 类 不 平衡 数据 分 类 准确 率 的 方法 。 

给 定 两 类 数据 ,该 数据 是 类 不 平衡 的 ,如 果 感 兴趣 的 主 类 ( 正 类 ) 只 有 少量 元 组 代表 ， 
而 大 多 数 元 组 都 代表 负 类 。 对 于 多 类 不 平衡 数据 ,每 个 类 的 数据 分 布 差别 显著 ,其 中 , 主 
类 或 感 兴趣 的 类 的 元 组 稀少 。 类 不 平衡 问题 与 代价 敏感 学 习 密 切 相 关 , 那 里 每 个 类 的 错 


log (5-36) 
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误 代价 并 不 相等 。 例 如 ,在 医疗 诊断 中 ,错误 地 把 一 位 癌症 患者 诊断 为 健康 ( 假 阴 性 ) 的 代 
价 远 高 于 错误 地 把 一 个 健康 人 诊断 为 患 有 癌症 ( 假 阳性 )。 假 阴性 错误 可 能 导致 失去 生 
命 ,因此 比 假 虽 性 错误 的 代价 高 得 多 。 类 不 平衡 数据 的 其 他 应 用 包括 欺诈 检测 、 从 卫星 雷 
达 图 像 检测 石油 泄漏 和 故障 检测 。 

传统 的 分 类 算法 旨 在 最 小 化 分 类 误差 。 它 们 假定 : 假 正 例 和 假 负 例 错 误 的 代价 是 相 
等 的 。 由 于 假定 类 平衡 分 布 和 相等 的 错误 代价 ,所 以 传统 的 分 类 算法 不 适合 类 不 平衡 数 
据 。 尽 管 准确 率 度 量 假 定 各 类 的 代价 都 相等 ,但 是 可 以 使 用 不 同类 型 分 类 的 其 他 评估 
度量 。 

本 节 考 察 提 高 类 不 平衡 数据 分 类 准确 率 的 一 般 方法 。 这 些 方法 包括 过 抽样 、 欠 抽样 、 
闵 值 移动 组合 技术 。 前 3 种 不 涉及 对 分 类 模型 结构 的 改变 。 也 就 是 说 ,过 抽样 和 欠 抽 样 
改变 训练 集中 的 元 组 分 布 , 阔 值 移动 影响 对 新 数据 分 类 时 模型 如 何 决 策 。 为 了 便于 解释 ， 
我 们 针对 两 类 不 平衡 数据 问题 介绍 一 般 方法 ,其 中 代价 较 高 的 类 比 代价 较 低 的 类 稀少 。 

过 抽样 和 欠 抽 样 都 改变 训练 集 的 分 布 ,使 得 稀有 ( 正 ) 类 能 够 很 好 地 表示 。 过 抽样 对 
正 元 组 重复 采样 ,使 得 训练 集 包含 相同 个 数 的 正 元 组 和 负 元 组 。 欠 抽样 减少 负 元 组 的 数 
量 , 它 随 机 地 从 多 数 ( 负 ) 类 中 删除 元 组 ,直到 正 元 组 和 负 元 组 的 数量 相等 。 

不 平衡 类 问题 的 阔 值 移动 (threshold-moving) 方 法 不 涉及 抽样 。 它 用 于 对 给 定 输入 
元 组 返回 一 个 连续 输出 值 的 分 类 器 。 即 对 于 输入 元 组 X, 这 种 分 类 器 返回 一 个 映射 
7CX) 一 [0,1] 作 为 输出 。 该 方法 不 是 操控 训练 元 组 ,而 是 基于 输出 值 返回 分 类 决策 。 最 
简单 的 方法 是 ,对 于 某 个 靖 值 上 ,满足 POO Se 的 元 组 X 被 视 为 正 的 ,而 其 他 元 组 被 看 做 
负 的 。 其 他 方法 可 能 涉及 用 加 权 操 控 输出 。 一 般 而 言 , 阔 值 移动 方法 移动 阔 值 +, 使 得 稀 
有 类 的 元 组 容易 分 类 。 效 值 移动 方法 尽管 不 像 过 抽样 和 人 欠 抽 样 那么 流行 ,但 是 它 简单 ,并 
且 对 于 两 类 不 平衡 数据 已 经 表现 得 相当 成 功 。 

组 合 方法 也 已 经 用 于 类 不 平衡 问题 。 组 成 组 合 分 类 器 的 个 体 分 类 器 可 以 使 用 上 面 介 
绍 的 方法 ,如 过 抽样 和 浆 值 移动 。 

上 面 介绍 的 方法 对 两 类 任务 的 类 不 平衡 问题 相对 有 效 。 试 验 观察 表明 , 阔 值 移动 和 
组 合 方法 优 于 过 抽样 和 欠 抽 样 。 即 便 在 非常 不 平衡 的 数据 集 上 , 阔 值 移动 也 很 有 效 。 多 
类 任务 上 的 类 不 平衡 困难 得 多 ,那里 过 抽样 和 效 值 移动 都 不 太 有 效果 。 尽 管 阔 值 移动 和 
组 合 方法 表现 出 了 和 希望 ,但 是 为 多 类 不 平衡 问题 寻找 更 好 的 解决 方案 仍然 是 尚 待 解决 的 
问题 。 


58 情 性 学 习 法 (k 最 近邻 分 类 ) 


当 给 定 训练 元 组 集 时 ,急切 学 习 法 (eager learning) 在 接收 待 分 类 的 新 元 组 之 前 就 构 
造 泛 化 模型 ( 即 分 类 模型 )。 可 以 认为 学 习 后 的 模型 已 经 就 绪 , 并 急于 对 先前 未 见 过 的 元 
组 进行 分 类 。 而 惰性 方法 的 学 习 过 程 直 到 对 给 定 的 检验 元 组 分 类 之 前 的 一 刻 才 构造 模 
型 。 也 就 是 说 , 当 给 定 一 个 训练 元 组 时 .惰性 学 习 法 (lazy learning) 简 单 地 存储 它 ,并 且 一 
直 等 待 ,直到 给 定 一 个 检验 元 组 。 本 节 介 绍 一 个 惰性 学 习 算法 一 一 k 最 近邻 分 类 。 

最 近邻 分 类 法 是 基于 类 比 学 习 , 即 通过 将 给 定 的 检验 元 组 与 和 它 相 似 的 训练 元 组 进 
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行 比较 来 学 习 。 训 练 元 组 用 个 属性 描述 。 每 个 元 组 代表 n 维 空间 的 一 个 点 。 这 样 ,所 
有 的 训练 元 组 都 存放 在 n 维 模式 空间 中 。 当 给 定 一 个 未 知 元 组 时 ,k 最 近邻 分 类 (k& 
nearest-neighbor classification) 搜 索 模式 空间 , 找 出 最 接近 未 知 元 组 的 个 训练 元 组 。 这 
k 个 训练 元 组 是 未 知 元 组 的 A 个 最 近邻 。 

邻近 性 用 距离 度量 ,如 欧 几 里 得 距离 。 两 个 点 或 元 组 Xi 一 (za zz，…zn) 和 X2= 
Can 9X22 yz) 的 欧 几 里 得 距离 是 


dist(X,.X2) = |) Cru — tz)? (5-37) 
i=l 


换言之 ,对 于 每 个 数值 属性 , 取 元 组 X 和 Xe 该 属性 对 应 值 的 差 , 取 差 的 平方 和 ,并 取 其 
平方 根 。 通 常 , 在 使 用 式 (5-37) 之 前 ,要 把 每 个 属性 的 值 规范 化 ,这 有 助 于 防止 具有 较 大 
初始 值 域 的 属性 (如 收入 ) 比 具有 较 小 初始 值 域 的 属性 (如 二 元 属性 ) 的 权重 过 大 。 例 如 ， 
可 以 通过 计算 下 式 , 使 用 最 小 -最 大 规范 化 把 输 指数 型 A 的 值 w 变换 到 [0,1] 区 间 中 的 vw 
a (5-38) 

max, — ming 

其 中 ,mina 和 maxa 分 别 是 属性 A 的 最 小 值 和 最 大 值 。 

对 于 上 最 近邻 分 类 ,未 知 元 组 被 指派 到 它 的 & 个 最 近邻 中 的 多 数 类 。 当 k= 二 1 时 ,未 
知 元 组 被 指派 到 模式 空间 中 最 接近 它 的 训练 元 组 所 在 的 类 。 最 近邻 分 类 也 可 以 用 于 数值 
预测 , 即 返回 给 定 未 知 元 组 的 实数 值 预测 。 在 这 种 情况 下 ,分 类 器 返回 未 知 元 组 的 & 个 最 
近邻 的 实数 值 标号 的 平均 值 。 

上 面 的 讨论 假定 用 来 描述 元 组 的 属性 都 是 数值 的 。 对 于 标 称 属 性 ,一 种 简单 的 方法 
是 比较 元 组 X 和 X 中 对 应 属性 的 值 。 如 果 二 者 相同 , 则 二 者 之 间 的 差 为 0; 如果 二 者 不 
同 , 则 二 者 之 间 的 差 为 1。 

通常 ,如 果 元 组 Xi 或 X; 在 给 定 属 性 A 上 的 值 缺 失 , 则 假定 取 最 大 的 可 能 差 。 假 
设 每 个 属性 都 已 经 映射 到 [0,1] 区 间 。 对 于 标 称 属性 ,如 果 A 的 一 个 或 两 个 对 应 值 缺 
失 , 则 取 差 值 为 1。 如 果 A 是 数值 属性 ,并 且 在 元 组 X AX, 上 都 缺失 , 则 差 值 也 取 1 。 
如 果 只 有 一 个 值 缺 失 , 而 另 一 个 存在 并 且 已 经 规范 化 , 则 取 差 为 |1 一 v | 和 10 一 v | 中 的 
最 大 者 。 

近邻 数 k 的 值 可 以 通过 实验 来 确定 .从 k= 二 1 开始 ,使 用 检验 集 估计 分 类 器 的 错误 率 。 
重复 该 过 程 ,每 次 & 增 1, 允许 增加 一 个 近邻 。 可 以 选取 产生 最 小 错误 率 的 &。 一 般 而 言 ， 
训练 元 组 越 多 , 的 值 越 大 。 随 着 训练 元 组 数 趋向 于 无 穷 并 且 二 1, 错 误 率 不 会 超过 贝 叶 
斯 错误 率 的 2 倍 。 如 果 & 也 趋向 于 无 穷 . 则 错误 率 趋向 于 贝 叶 斯 错误 率 。 

最 近邻 分 类 法 使 用 基于 距离 的 比较 ,本质 上 赋予 每 个 属性 相等 的 权重 。 因 此 , 当 数 据 
存在 噪声 或 不 相关 属性 时 ,它们 的 准确 率 可 能 受到 影响 。 然 而 ,这 种 方法 已 经 被 改进 , 结 
合 属性 加 权 和 噪声 数据 元 组 的 剪 枝 。 距 离 度 量 的 选择 可 能 是 至 关 重 要 的 。 也 可 以 使 用 曼 
哈 顿 距离 或 其 他 距离 度量 。 

最 近邻 分 类 法 在 对 检验 元 组 分 类 时 可 能 非常 慢 。 如 果 D 是 由 |1D| 个 元 组 组 成 的 训练 
数据 库 , 而 k= 二 1, 则 对 一 个 给 定 的 检验 元 组 分 类 需要 O(1D1) 次 比较 。 通 过 预先 排序 并 将 
排序 后 的 元 组 安排 在 搜索 树 中 ,比较 次 数 可 以 降低 到 O(log|1D|)。 并 行 实现 可 以 把 运行 
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时 间 降 低 为 常数 , 即 O(1) ,独立 于 1D|。 

加 快 分 类 速度 的 其 他 技术 包括 使 用 部 分 距离 计算 和 编辑 存储 的 元 组 。 部 分 距离 
(partial distance) 方 法 基于 个 属性 的 子 集 计 算 距 离 。 如 果 该 距离 超过 阔 值 , 则 停止 给 定 
存储 元 组 的 进一步 计算 ,该 过 程 转向 下 一 个 存储 元 组 。 编 辑 (editing) 方 法 可 以 删除 被 证 
明 * 无 用 的 ”元 组 。 该 方法 也 称 剪 枝 或 精简 ,因为 它 减 少 了 存储 元 组 的 总 数 。 


59 基于 Python 平台 的 案例 分 析 


本 节 通 过 一 个 例子 讲解 决策 树 如 何 预测 患者 需要 佩戴 的 隐形 眼镜 类 型 。 使 用 小 数据 
集 ,就 可 以 利用 决策 树 学 到 很 多 知识 : 眼科 医生 是 如 何 判 断 患 者 需要 佩戴 的 镜片 类 型 的 ; 
一 旦 理解 了 决策 树 的 工作 原理 ,我 们 甚至 也 可 以 帮助 人 们 判断 需要 佩戴 的 镜片 类 型 。 


5.9.1 数据 集 准备 


隐形 眼镜 数据 集 是 非常 著名 的 数据 集 , 它 包含 很 多 患者 眼 部 状况 的 观察 条 件 以 及 医 
生 推 荐 的 隐形 眼镜 类 型 。 隐 形 眼 镜 类 型 包括 硬 材质 、 软 材质 以 及 不 适合 佩戴 隐形 眼镜 。 
部 分 数据 集 如 表 5-5 所 示 。 


表 5-5 隐形 眼镜 数据 集 


















































age prescript astigmatic tearRate type 
young myope no reduced no_lenses 
young myope no normal soft 
young myope yes reduced no_lenses 
young myope yes normal hard 
young hyper no reduced no_lenses 
young hyper no normal soft 
young hyper yes reduced no_lenses 
young hyper yes normal hard 
pre myope no reduced no_lenses 
pre myope no normal soft 
pre myope yes reduced no_lenses 
pre myope yes normal hard 
pre hyper no reduced no_lenses 
pre hyper no normal soft 
pre hyper yes reduced no_lenses 
pre hyper yes normal no_lenses 
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age prescript astigmatic tearRate type 
presbyopic myope no reduced no_lenses 
presbyopic myope no normal no_lenses 
presbyopic myope yes reduced no_lenses 
presbyopic myope yes normal hard 
presbyopic hyper no reduced no_lenses 
presbyopic hyper no normal soft 
presbyopic hyper yes reduced no_lenses 
presbyopic hyper yes normal no_lenses 


5.9.2 算法 描述 


本 节 将 通过 ID3 算法 一 步 步 地 构造 决策 树 ,首先 讨论 数学 上 如 何 使 用 信息 论 划 分 数 
据 集 , 然 后 编写 代码 将 理论 应 用 到 具体 的 数据 集 上 ,最 后 编写 代码 构建 决策 树 。 

在 构造 决策 树 时 ,需要 解决 的 第 一 个 问题 就 是 ,当前 数据 集 上 哪个 特征 在 划分 数据 分 
类 时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ,划分 出 最 好 的 结果 ,必须 评估 每 个 特征 。 完 
成 测试 之 后 ,原始 数据 集 就 被 划分 为 几 个 数据 子 集 。 这 些 数据 子 集会 分 布 在 第 一 个 决策 
点 的 所 有 分 枝 。 如 果 某 个 分 枝 下 的 数据 属于 同一 类 型 , 则 生成 一 个 新 的 叶子 节点 。 如 果 
数据 子 集 内 的 数据 不 属于 同一 类 型 , 则 需要 重复 划分 数据 子 集 的 过 程 。 划 分 数据 子 集 的 
算法 和 划分 原始 数据 集 的 方法 相同 ,直到 所 有 具有 相同 类 型 的 数据 均 在 一 个 数据 子 集 内 。 

划分 数据 集 的 最 大 原则 是 : 将 无 序 的 数据 集 变 得 更 加 有 序 。 可 以 使 用 多 种 方法 划分 
数据 集 , 但 是 每 种 方法 都 有 各 自 的 优 缺 点 。 组 织 杂 乱 无 章 数据 的 一 种 方法 就 是 使 用 信息 
论 度量 信息 ,信息 论 是 量化 处 理 信息 的 分 支 科学 。 可 以 在 划分 数据 之 前 或 之 后 使 用 信息 
论 量 化 度量 信息 的 内 容 , 在 划分 数据 集 之 前 和 之 后 信息 发 生 的 变化 称 为 信息 增益 ,知道 如 
何 计算 信息 增益 ,就 可 以 计算 每 个 特征 值 划分 数据 集 获得 的 信息 增益 ,获得 信息 增益 最 高 
的 特征 就 是 最 好 的 选择 。 为 了 精确 地 定义 信息 增益 , 先 定义 信息 论 中 广泛 使 用 的 一 个 度 
量 标 准 一 一 香农 炉 ,或 者 简称 为 炉 , 它 刻画 了 任意 样 例 集 的 纯度 。 

焙 定 义 为 信息 的 期 望 值 ,在 明晰 这 个 概念 之 前 ,必须 知道 信息 的 定义 。 如 果 待 分 类 的 
事务 可 能 划分 在 多 个 分 类 之 中 , 则 符号 zx; 的 信息 定义 为 

l(zxi) =— log: p(xi) (5-39) 

其 中 p(x;) 是 选择 该 分 类 的 概率 。 

为 了 计算 粹 ,需要 计算 所 有 类 别 所 有 可 能 值 包含 的 信息 期 望 值 ,通过 下 面 的 公式 
得 到 : 





H =— Saplot 2p ai) (5-40) 
i=1 
其 中 是 分 类 的 数目 。 
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下 面 学 习 如 何 使 用 Python it fa BA. MU 5-32 所 示 。 





et SE Fe A 
def calc ShannonEnt (dataSet) : 
numEntries=len (dataSet) 
labelCounts={} 
for featVec in dataSet: 
currentLabel=featVec[-1] 
if currentLabel not in labelCounts.keys(): 
labelCounts [currentLabel]=0 
labelCounts [currentLabel]+=1 
shannonEnt=0.0 
for key in labelCounts: 
prob=float (labelCounts [key] ) /numEntries 
shannonEnt-=prob*log(prob, 2) 
return shannonEnt 











图 5-32 tA fa Sei 


FEAR DA JE «BEY DA $e HR HK fe SS aa DDH FF Bae PE REE K RI PE E ,遍历 
EAS CAE SE, FL: 1 ARE IE RE HE SE HE FF Sed), YR OY BP AA KY AG, 5 OP 
BT EY Are EA EIT AXT HE o FR IAE SY ak BB BY Se eK EH ES PE. PAC Al 
5-33 所 示 。 





# 选 择 最 好 的 数据 集 划 分 方式 
def choooseBestFeatureToSplit (dataSet): 
numFeatures=len (dataSet [0])-1 
baseEntropy=calcShannonEnt (dataSet) 
bestInfoGain=0.0; bestFeature=-1 
for i in range(numFeatures) :# 控 制 特征 ， 找 到 最 好 的 特征 划分 
featList=[example[i] for example in dataSet] 
uniqueVals=set (featList) #set () 集 合 函数 
newEntropy=0.0 
for value in uniqueVals: 
subDataSet=splitDataSet (dataSet, i, value) 
prob=len (subDataSet) /float (len (dataSet) ) 
newEntropy+=prob* calcShannonEnt (subDataSet) 
infoGain=baseEnt ropy-newEntropy 
if (infoGain>bestInfoGain) : 
best InfoGain=infoGain 
bestFeature=i 
return bestFeature 











图 5-33 选择 数据 集 的 划分 方式 


前 面 已 经 学 习 了 从 数据 集 构造 决策 树 算法 所 需要 的 子 功能 模块 ,其 工作 原理 如 下 : 
得 到 原始 数据 集 ,然后 基于 最 好 的 属性 值 划分 数据 集 ,由 于 特征 值 可 能 多 于 两 个 ,因此 可 
能 存在 多 于 两 个 分 枝 的 数据 集 划分 。 第 一 次 划分 完成 以 后 ,数据 将 被 向 下 传递 到 树 分 枝 
的 下 一 个 节点 ,在 这 个 节点 上 可 以 再 次 划分 数据 ,因此 可 以 采用 递归 的 原则 处 理 数据 集 。 

递归 结束 的 条 件 是 : 程序 遍历 完 所 有 划分 数据 集 的 属性 ,或 者 每 个 分 枝 下 的 所 有 实 
例 都 具有 相同 分 类 。 如 果 所 有 实例 具有 相同 的 分 类 , 则 得 到 一 个 叶子 节点 或 者 终止 块 。 
任何 到 达 叶 子 点 的 数据 必然 属于 叶子 节点 的 分 类 。 如 果 数 据 集 已 经 处 理 了 所 有 属性 ,但 
是 类 标签 依然 不 是 唯一 的 ,此 时 需要 决定 该 叶子 节点 的 分 类 ,在 这 种 情况 下 ,通常 会 采用 
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多 数 表决 的 方法 决定 该 叶子 节点 的 分 类 。 使 用 Python 创建 决策 树 的 程序 代码 如 图 5-34 
所 示 。 





# 创 建 决策 树 
def create Tree (dataSet, labels) : 
classList=[example[-1] for example in dataSet] 
if classList.count (classList [0] )==len(classList) :#count () 计 算出 现 次 数 
return classList[0] 4: # 遍 历 完 所 有 特征 时 返回 出 现 次 数 最 多 的 
if len(dataSet[0] )==1: 
return majorityCnt (classList) 
bestFeat=choooseBestFeatureToSplit (dataSet) 
bestFeatLabel=labels[bestFeat] 
myTree={bestFeatLabel:{}}# 建 立 以 bestFeatLabel 为 跟 的 空子 树 
del (labels [bestFeat] ) 
featValues=[example[bestFeat] for example in dataSet] 
uniqueVals=set (featValues) 
for value in uniqueVals: 
subLabels=labels[:] 
myTree [bestFeatLabel] [value]=createTree\ 
(splitDataSet (dataSet, bestFeat, value), subLabels) 
return myTree 








图 5-34 创建 决策 树 


5.9.3 算法 测试 


为 了 方便 读者 阅读 ,将 这 个 程序 集成 到 一 个 决策 树 系统 中 ,如 图 5-35 所 示 。 选 择 需 
要 训练 的 数据 集 , 然 后 输入 需要 的 属性 名 称 , 最 终生 成 决策 树 , 并 给 出 决策 树 面 对 测试 集 
的 分 类 准确 率 。 





¢ SRS - o xX 
FFAS \C:/Users/Administrator/I 打开 测试 集 
输入 属性 名 : 。 ge prescriptastigmatic< + DAE 


mn| mane | mt | 





图 5-35 决策 树 算法 的 界面 


图 5-36 给 出 了 一 个 用 字典 表示 的 决策 树 ,采用 文本 方式 很 难 分 辨 出 决策 树 的 模样 ， 
决策 树 的 主要 优点 就 是 直观 易于 理解 ,如 果 不 能 将 其 直观 地 显示 出 来 ,就 无 法 发 挥 其 
优势 。 





Python 3.5.0 (v3.5.0:374f501f4567, Sep 13 2015, 02:27:37) [MSC v.1900 64 bit (AMD64)] on win32 
Type "copyright", “credits” or "license()" for more information. 
> 





RESTART: C:\Users\Administrator\Desktop\python + #44 S+\App_D_tree.py 







į 'no_lenses', ‘young’: ' 
': {presbyopic': {'prescript': {hyper': ‘soft’, 'myope' 
'no_lenses'} 








no_lenses'}, 'young’: ‘soft’, ‘pre’: 'soft}})}, ‘reduced’: 


图 5-36 ”决策 树 程序 运行 的 结果 
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为 了 直观 地 显示 决策 树 ,用 Matplotlib 库 编写 绘制 树 的 程序 ,在 图 5-37 中 ,我们 可 以 
看 到 一 个 非常 直观 的 决策 树 , 沿 着 决策 树 的 不 同 分 枝 , 可 以 得 到 不 同 患者 需要 佩戴 的 隐形 



















































































眼镜 类 型 。 
tearRate 
reduced normal 
no_lenses astigmatic 
yes no 
prescript age 
hyper myope pre young 
presbyopic 
age hard soft prescript soft | 
hyper myope 











no_lenses || no_lenses no_lenses 


图 5-37 由 ID3 算 法 产生 的 决策 树 


为 了 验证 决策 树 对 未 知 数据 的 预测 性 能 ,把 隐形 眼镜 数据 集 随机 划分 成 两 部 分 : 





no_lenses 


部 分 样本 构成 训练 集 ,如 表 5-6 所 示 ; 另 一 部 分 样本 构成 测试 集 ,如 表 5-7 所 示 。 
表 5-6 新 构成 的 训练 集 



































age prescript astigmatic tearRate type 
young myope no reduced no_lenses 
young myope no normal soft 
young myope yes reduced no_lenses 
young hyper no reduced no_lenses 
young hyper no normal soft 
young hyper yes reduced no_lenses 
pre myope no reduced no_lenses 
pre myope no normal soft 
pre myope yes reduced no_lenses 
pre hyper no reduced no_lenses 
pre hyper no normal soft 
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续 表 
age prescript astigmatic tearRate type 
pre hyper yes reduced no_lenses 

presbyopic myope no reduced no_lenses 
presbyopic myope no normal no_lenses 
presbyopic myope yes reduced no_lenses 
presbyopic hyper no reduced no_lenses 
presbyopic hyper no normal soft 
presbyopic hyper yes reduced no_lenses 
表 5-7 新 构成 的 测试 集 
age prescript astigmatic tearRate type 
presbyopic hyper yes normal no_lenses 
young hyper yes reduced no_lenses 
presbyopic myope no normal no_lenses 
presbyopic myope yes reduced no_lenses 
presbyopic hyper no reduced no_lenses 
pre myope no normal soft 
pre myope yes reduced no_lenses 
pre hyper no reduced no_lenses 
pre hyper no normal soft 














依靠 训练 集 数据 构造 决策 树 之 后 ,可 以 将 它 用 于 实际 数据 的 分 类 。 在 执行 数据 分 类 
时 ,需要 决策 树 以 及 用 于 构造 树 的 属性 。 然 后 ,系统 比较 待 测 数据 与 决策 树 上 的 数值 , 递 
归 执 行 该 过 程 , 直 到 进入 叶子 节点 。 

如 图 5-38 所 示 ,用 测试 集 去 测试 训练 集训 练 的 决策 树 ,准确 度 可 以 达到 89%。 读 者 
也 可 以 自己 划分 训练 集 和 测试 集 来 验证 决策 树 的 准确 度 。 另 外 ,这 个 决策 树 算 法 没有 进 
行 剪 枝 , 读 者 可 以 尝试 优化 这 个 算法 。 





了 决策 本 算法 = a x 
FFI ICVUsers/Administrator/ 打开 测试 集 ICVUsers/Administrator/I 
输入 尾 性 名 :|criptastigmatictearRatd iteme | 。 |0.8888888888888888 








a a 二 | 


图 5-38 计算 决策 树 的 准确 率 
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分 类 是 一 种 数据 分 析 形 式 , 它 提取 描述 数据 类 的 模型 。 分 类 器 或 分 类 预测 类 别 标 
号 (类 )。 数 值 预测 建立 连续 值 函 数 模型 。 分 类 和 数值 预测 是 两 类 主要 的 预测 
问题 。 

决策 树 归纳 是 一 种 自 顶 向 下 递归 树 归纳 算法 , 它 使 用 一 种 属性 选择 度量 为 树 的 每 
个 非 树叶 节点 选择 测试 属性 。ID3、C4.5 和 CART 都 是 这 种 算法 的 例子 ,它们 使 
用 不 同 的 属性 选择 度量 。 树 剪 枝 算法 试图 通过 剪 去 反映 数据 中 的 噪声 的 分 枝 来 
提高 准确 率 。 早 期 的 决策 树 算法 通常 假定 数据 是 驻 留 内 存 的 。 
朴素 贝 叶 斯 分 类 基于 后 验 概 率 的 贝 叶 斯 定理 。 它 假定 类 条 件 独立 
值 对 给 定 类 的 影响 独立 于 其 他 属性 的 值 。 

支持 向 量 机 (SVM) 是 一 种 用 于 线性 和 非 线性 数据 的 分 类 算法 。 它 把 源 数据 变换 
到 较 高 维 空间 ,使 用 称 作 支持 向 量 的 基本 元 组 ,从 中 发 现 分 离 数据 的 超 平面 。 
混淆 矩阵 可 以 用 来 评估 分 类 器 的 质量 。 对 于 二 元 分 类 问题 , 它 显 示 真 正 例 \ 真 负 
例 、 假 正 例假 负 例 。 评 估 分 类 器 预测 能 力 的 度量 包括 准确 率 、. 灵 敏 度 (又 称 为 召 
回 率 ) ,特效 性 ,精度 、F 和 Fp。 当 感 兴趣 的 主 类 占 少数 时 ,过 分 依赖 准确 率 度量 可 
能 受骗 。 

分 类 器 的 构造 与 评估 需要 把 标记 的 数据 集 划 分 成 训练 集 和 检验 集 。 保 持 、 随 机 抽 
样 , 交 叉 验证 和 自助 法 都 是 用 于 这 种 划分 的 典型 方法 。 

。 组 合 方法 可 以 通过 学 习 和 组 合 一 系列 个 体 ( 基 ) 分 类 器 模型 来 提高 总 体 准确 率 。 
装 袋 ,提升 和 随机 森林 都 是 流行 的 组 合 方法 。 

当 感 兴趣 的 主 类 只 由 少量 元 组 代表 时 就 会 出 现 类 不 平衡 问题 。 处 理 这 一 问题 的 
策略 包括 过 抽样 . 欠 抽 样 . 阔 值 移动 和 组 合 技术 。 
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1. 简 述 决策 树 分 类 的 主要 步骤 。 

2. 给 定 决策 树 , 选 项 有 : @ 将 决策 树 转换 成 规则 ,然后 对 结果 规则 剪 枝 ; @ 对 决策 树 
剪 枝 , 然 后 将 剪 枝 后 的 树 转换 成 规则 。 与 @ 相 比 ,四 的 优点 是 什么 ? 

3. 计算 决策 树 算法 在 最 坏 情况 下 的 时 间 复 杂 度 是 重要 的 。 给 定数 据 集 D, 具 有 m 个 
属性 和 |D| 个 训练 记录 ,证 明 决 策 树 生长 的 计算 时 间 最 多 为 mDlogD。 

4. 证 明 : 将 节点 划分 为 更 小 的 后 续 节 点 之 后 ,节点 炉 不 会 增加 。 

5. 为 什么 朴素 贝 叶 斯 称 为 “朴素 ”? 简 述 朴素 贝 叶 斯 分 类 的 主要 思想 。 

6. 为 4 个 布尔 属性 A、B、C 和 DD 的 奇偶 函数 画 一 棵 完全 决策 树 。 可 以 简化 该 决 
策 树 吗 ? 

7. 考虑 表 5-8 中 二 元 分 类 问题 的 训练 样本 。 

(1) 计算 整个 训练 样本 集 的 Gini 指标 值 。 
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(2) 计算 属性 “顾客 ID” 的 Gini 指标 值 。 

(3) 计算 属性 “性 别 " 的 Gini 指标 值 。 

(4) 计算 使 用 多 路 划分 属性 “车 型 "的 Gini 指标 值 。 

O) 计算 使 用 多 路 划分 属性 “衬衣 尺码 ”的 Gini 指标 值 。 

(6) 下 面 哪个 属性 更 好 : 性 别 、 车 型 还 是 衬衣 尺码 ? 

D 解释 为 什么 属性 “顾客 ID” 的 Gini 值 最 低 , 却 不 能 作为 属性 测试 条 件 。 


表 5-8 习题 7 中 的 训练 样本 

































































顾客 ID 性 别 车 型 衬衣 尺码 类 
1 男 家 用 小 Co 
s 5 运动 中 Co 
3 男 运动 中 Co 
4 男 运动 大 Co 
5 男 运动 加 大 Co 
6 男 运动 加 大 Co 
7 x 运动 小 Co 
8 x 运动 小 Co 
9 女 运动 中 Co 
10 女 豪华 大 Co 
11 男 家 用 大 Cl 
12 男 家 用 加 大 Cl 
13 男 家 用 中 CI 
14 男 豪华 加 大 Cl 
15 女 豪华 小 Cl 
16 x 豪华 小 El 
17 x 豪华 中 cl 
18 x 豪华 中 cl 
19 女 豪华 中 Cl 
20 x 豪华 大 cl 

















8. 设计 一 种 方法 ,对 无 限 的 数据 流 进行 有 效 的 朴素 贝 叶 斯 分 类 ( 即 只 能 扫描 数据 流 
一 次 )。 如 果 想 发 现 这 种 分 类 模式 的 演变 (例如 ,将 当前 的 分 类 模式 与 较 早 的 模式 进行 比 
较 , 如 与 一 周 以 前 的 模式 相 比 ) ,你 有 何 修改 建议 ? 

9. 证 明 准 确 率 是 灵敏 性 和 特效 性 度量 的 函数 。 

10. 概述 处 理 类 不 平衡 问题 的 方法 。 假 设 银行 要 开发 一 个 分 类 器 以 预防 信用 卡 交易 
中 的 欺诈 。 说 明基 于 大 量 非 欺诈 实例 和 很 少 的 欺诈 实例 如 何 构造 高 质量 的 分 类 。 
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数据 聚 类 分 析 


在 对 世界 的 分 析 和 描述 中 ,类 ,或 在 概念 上 有 意义 的 具有 公共 特性 的 对 象 组 ,扮演 着 
重要 的 角色 。 的 确 , 人 类 擅长 将 对 象 划 分 为 组 ( 聚 类 ), 并 将 特定 的 对 象 指派 到 这 些 组 (分 
类 )。 例 如 ,即使 很 小 的 孩子 也 能 很 快 地 将 图 片上 的 对 象 标 记 为 建筑 物 、 车 辆 、 人 动物 \ 植 
物 等 。 就 理解 数据 而 言 , 簇 是 潜在 的 类 ,而 聚 类 分 析 是 研究 自动 发 现 这 些 类 的 技术 。 

因此 , 聚 类 是 一 个 把 数据 对 象 集 划 分 成 多 个 组 或 簇 的 过 程 ,使 得 得 内 的 对 象 具有 很 高 
的 相似 性 ,但 与 其 他 簇 中 的 对 象 具有 很 高 的 相 异 性 。 相 似 性 和 相 异 性 根据 描述 对 象 的 属 
性 值 来 评估 ,并且 通常 涉及 聚 类 度量 。 

聚 类 分 析 在 许多 实际 问题 上 都 有 应 用 。 下 面 给 出 一 些 具体 的 例子 ,以 方便 读者 进行 
理解 。 

。 信息 检索 。 万 维 网 包含 数 以 亿 计 的 Web 页 面 ,网 络 搜索 引擎 可 能 返回 数 以 万 计 
的 页 面 。 可 以 使 用 聚 类 将 搜索 结果 分 成 若干 秘 , 每 个 簇 捕获 查询 的 某 个 特定 方 
面 。 例 如 ,查询 “电影 "返回 的 网 页 可 以 分 成 诸如 评价 .电影 预告 片 .影星 和 电影 院 
等 类 别 。 每 一 个 类 别 ( 簇 ) 又 可 以 划分 成 若干 子 类 别 ( 子 得), 从 而 产生 一 个 层次 结 
构 ,帮助 用 户 进一步 探索 查询 结果 。 
心理 学 和 医学 。 一 种 疾病 或 健康 状况 通常 有 多 种 变种 , 聚 类 分 析 可 以 用 来 发 现 这 
些 子 类 别 。 例 如 , 聚 类 已 经 用 来 识别 不 同类 型 的 抑郁 症 。 聚 类 分 析 也 可 用 来 检测 
疾病 的 时 间 和 空间 分 布 模式 。 

。 商业 。 商 业 点 收集 当前 和 潜在 顾客 的 大 量 信息 。 可 以 使 用 聚 类 将 顾客 划分 成 若 

干 组 ,以 便 进一步 分 析 和 开展 营销 活动 。 

除 此 之 外 , 聚 类 作为 一 种 数据 挖掘 工具 还 广泛 应 用 于 其 他 许多 领域 ,如 生物 学 、 气 候 
学 、 商 务 智能 和 Web 搜索 。 

本 章 介 绍 聚 类 分 析 的 基本 概念 和 方法 。 在 6. 1 节 , 引 入 该 主题 并 介绍 各 种 聚 类 方法 
和 各 种 应 用 的 要 求 。 在 6. 2 节 至 6. 5 节 学 习 一 些 基本 的 聚 类 技术 。 在 6. 6 节 ,简要 讨论 
如 何 评估 聚 类 方法 。6. 7 节 给 出 一 个 案例 分 析 以 帮助 读者 更 好 地 理解 聚 类 分 析 方法 。 
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本 节 给 出 聚 类 分 析 的 基本 概念 及 应 用 术语 ,为 读者 研究 聚 类 分 析 建立 基础 。 在 6. 1.1 
节 , 给 出 聚 类 分 析 的 定义 并 给 出 一 些 例子 。 在 6. 1.2 节 , 介 绍 聚 类 的 基本 要 求 。6. 1. 3 节 给 
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tH BEE AS RAS Ty E A BES 
6.1.1 聚 类 分 析 简 介 


3 ES} MH (cluster analysis) fij Pr R Æ (clustering) ,是 一 个 把 数据 对 象 (或 观测 ) 划 分 
成 子 集 的 过 程 ,每 个 子 集 是 一 个 簇 (cluster) ,使 得 簇 中 的 对 象 彼此 相似 ,但 与 其 他 簇 中 的 
对 象 不 相似 。 组 内 的 相似 性 越 大 ,组 间 差 别 越 大 , 聚 类 就 越 好 。 

聚 类 分 析 与 其 他 将 数据 对 象 分 组 的 技术 相关 。 例 如 , 聚 类 可 以 看 作 一 种 分 类 , 它 用 类 
( 簇 ) 标 号 创建 对 象 的 标记 。 然 而 ,只 能 从 数据 导出 这 些 标号 。 相 比 之 下 ,第 5 章 的 分 类 是 
监督 分 类 (supervised classification) ,即使 用 由 类 标号 已 知 的 对 象 开 发 的 模型 对 新 的 、 无 标 
记 的 对 象 赋予 类 标号 。 为 此 ,有 时 称 聚 类 分 析 为 非 监督 分 类 (unsupervised classification) 。 

聚 类 分 析 已 经 广泛 地 应 用 于 许多 应 用 领域 ,包括 商务 智能 .图 像 模式 识别 .Web 搜 
索 、. 生 物 学 和 安全 。 在 商务 智能 应 用 中 , 聚 类 可 以 用 来 把 大 量 客户 分 组 ,其 中 组 内 的 客户 
具有 非常 类 似 的 特征 ,这 有 利于 开发 加 强 客户 关系 管理 的 商务 策略 。 此 外 ,考虑 具有 大 量 
项 目的 咨询 公司 ,为 了 改善 项 目 管理 ,可 以 基于 相似 性 把 项 目 划分 成 类 别 ,使 得 项 目 审计 
和 诊断 (改善 项 目 提交 和 结果 ) 可 以 更 有 效 地 实施 。 

在 图 像 识 别 应 用 中 , 聚 类 可 以 在 手写 字符 识别 系统 中 用 来 发 现 得 或 “ 子 类 ”。 假 设 有 
手写 数字 的 数据 集 , 其 中 每 个 数字 标记 为 1.2、3 等 。 注 意 , 人 们 写 相 同 的 数字 可 能 存在 很 
大 差别 。 例 如 ,数字 *2”, 有 些 人 写 的 时 候 可 能 在 左下 方 带 一 个 小 圆圈 ,而 另 一 些 人 则 不 
会 。 因 此 可 以 使 用 聚 类 确定 “2 的 子 类 ,每 个 子 类 代表 了 手写 数字 “2? 可 能 出 现 的 变 体 。 
使 用 基于 子 类 的 多 个 模型 可 以 提高 整体 识别 的 准确 率 。 

在 Web 搜索 中 也 有 许多 聚 类 应 用 。 例 如 ,由 于 Web 网 页 的 数量 巨大 ,关键 词 搜索 常 
常会 返回 大 量 命中 对 象 ( 即 与 搜索 相关 的 网 页 ) 。 可 以 用 聚 类 将 搜索 结果 分 组 ,以 简明 、 容 
易 访 问 的 方式 提交 这 些 结果 。 此 外 ,目前 已 经 开发 出 把 文档 聚 类 成 主题 的 聚 类 技术 ,这些 
技术 已 经 广泛 地 用 在 实际 的 信息 检索 中 。 

作为 一 种 数据 挖掘 功能 , 聚 类 分 析 也 可 以 作为 一 种 独立 的 工具 ,用 来 洞察 数据 的 分 
布 ,观察 每 个 徐 的 特征 ,将 进一步 分 析 集 中 在 特定 的 簇 集合 上 。 另 外 , 聚 类 分 析 可 以 作为 
其 他 算法 (如 特征 化 ,属性 子 集 选 择 和 分 类 ) 的 预 处 理 步 又, 之 后 这 些 算法 将 在 检测 到 的 入 
和 选择 的 属性 或 特征 上 进行 操作 。 


6.1.2 ”对 聚 类 的 基本 要 求 


聚 类 作为 一 种 数据 挖掘 工具 是 一 个 富有 挑战 性 的 研究 领域 。 本 节 学 习 对 聚 类 的 
。 可 伸缩 性 。 许 多 聚 类 算法 在 小 于 200 个 数据 对 象 的 小 数据 集合 上 工作 得 很 好 ;但 
是 ,一 个 大 规模 数据 库 可 能 包含 几 百 万 个 对 象 , 在 这 样 的 大 数据 集合 上 进行 聚 类 
可 能 会 导致 有 偏 的 结果 。 因 此 ,需要 具有 高 度 可 伸缩 的 聚 类 算法 。 
处 理 不 同类 型 数据 的 能 力 。 许 多 算法 被 设计 用 来 聚 类 数值 类 型 的 数据 。 但 是 , 某 
些 应 用 可 能 要 求 聚 类 其 他 类 型 的 数据 ,如 二 元 类 型 (binary)、 分 类 / 标 称 类 型 
(categorical/nominal) 序数 型 (ordinal) 数 据 .或 者 这 些 数据 类 型 的 混合 。 
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发 现任 意 形状 的 聚 类 。 许 多 聚 类 算法 基于 欧 几 里 得 或 者 曼哈顿 距离 度量 来 决定 
聚 类 。 基 于 这 样 的 距离 度量 的 算法 趋向 于 发 现 具有 相近 尺度 和 密度 的 球状 能。 
但 是 ,一 个 簇 可 能 是 任意 形状 。 重 要 的 是 开发 能 够 发 现任 意 形状 的 复 的 算法 。 

用 于 决定 输入 参数 的 领域 知识 最 小 化 。 许 多 聚 类 算法 在 聚 类 分 析 中 要 求 用 户 输 
和 人 一 定 的 参数 ,例如 希望 产生 的 簇 的 数目 。 数 据 结果 对 输入 参数 十 分 敏感 ,参数 
通常 很 难 确定 ,特别 是 对 于 包含 高 维 对 象 的 数据 集 来 说 。 这 样 不 仅 加 重 了 用 户 的 
负担 ,也 使 得 聚 类 的 质量 难以 控制 。 

处 理 “ 噪 声 " 数 据 的 能 力 。 绝 大 多 数 现实 中 的 数据 库 都 包含 了 孤立 点 缺失 或 错误 
的 数据 。 一 些 聚 类 算法 对 于 这 样 的 数据 敏感 ,可 能 导致 低 质量 的 聚 类 结果 。 因 
此 ,需要 对 噪声 鲁 棒 的 聚 类 算法 。 

对 于 输入 记录 的 顺序 不 敏感 。 一 些 聚 类 算法 对 于 输入 数据 的 顺序 是 敏感 的 。 例 
如 ,同一 个 数据 集合 , 当 以 不 同 的 顺序 交 给 同一 个 算法 时 ,可 能 生成 差别 很 大 的 聚 
类 结果 。 需 要 开发 对 数据 输入 顺序 不 敏感 的 算法 。 

聚 类 高 维 数据 的 能 力 。 数 据 集 可 能 包含 大 量 的 维 或 属性 。 例 如 ,在 文档 聚 类 时 ， 
每 个 关键 词 都 可 以 看 作 一 个 维 , 并 且 常 常 有 数 以 千 计 的 关键 词 。 许 多 聚 类 算法 擅 
长 处 理 低 维 数据 ,如 只 涉及 两 三 个 维 的 数据 。 发 现 高 维 空间 中 数据 对 象 的 簇 是 一 
个 挑战 ,特别 是 在 这 样 的 数据 可 能 非常 稀 玻 ,并且 高 度 倾斜 的 情况 下 。 

基于 约束 的 聚 类 。 现 实 世 界 的 应 用 可 能 需要 在 各 种 约束 条 件 下 进行 聚 类 。 假 设 
你 的 工作 是 在 一 个 城市 中 为 给 定数 目的 自动 提 款 机 选择 安放 位 置 。 为 了 做 出 决 
定 ,你 可 以 对 住宅 进行 聚 类 ,同时 考虑 城市 的 河流 和 公路 网 、 每 个 簇 ( 地 区 ) 的 客户 
的 类 型 和 数量 等 情况 。 找 到 既 满足 特定 的 约束 又 具有 良好 聚 类 特性 的 数据 分 组 
是 一 项 具有 挑战 性 的 任务 。 

可 解释 性 和 可 用 性 。 用 户 希 望 聚 类 结果 是 可 解释 的 、 可 理解 的 和 可 用 的 。 也 就 是 
说 , 聚 类 可 能 需要 与 特定 的 语义 解释 和 应 用 相 联系 。 重 要 的 是 研究 应 用 目标 如 何 
影响 聚 类 特征 和 聚 类 方法 的 选择 。 


6.1.3 聚 类 分 析 方 法 


在 如 今 的 机 器 学 习 领 域 存在 着 大 量 的 聚 类 算法 ,本 节 对 各 种 不 同 的 聚 类 方法 提供 一 
个 相对 有 组 织 的 描述 以 区 别 不 同类 型 的 聚 类 。 


1. 划分 方法 


给 定 一 个 nn 个 对 象 的 集合 ,划分 方法 (partitioning method) 构 建 数据 的 人 个 分 组 ,其 
中 每 个 分 组 表示 一 个 簇 ,并 且 kn。 而 且 这 上 个 分 组 满足 下 列 条 件 : 

(1) 每 一 个 分 组 至 少 包含 一 个 数据 记录 。 

(2) 每 一 个 数据 记录 属于 且 仅 属 于 一 个 分 组 (注意 : 这 个 要 求 在 某 些 模糊 聚 类 算法 
(6.5 节 ) 中 可 以 放宽 ) 。 

大 部 分 划分 方法 是 基于 距离 的 。 对 于 给 定 的 分 组 数 &, 算 法 首先 给 出 一 个 初始 的 分 
组 方法 ,以 后 通过 反复 迭代 的 方法 改变 分 组 ,使 得 每 一 次 改进 之 后 的 分 组 方案 都 较 前 一 次 
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好 ,而 所 谓 好 的 标准 就 是 : 同一 分 组 中 的 记录 越 近 越 好 ,而 不 同 分 组 中 的 记录 越 远 越 好 。 
使 用 这 个 基本 思想 的 算法 有 A& 均 值 算法 中 心 点 算法 .CLARANS 算 法 等 。 

为 了 达到 全 局 最 优 ,基于 划分 的 聚 类 可 能 需要 穷 举 所 有 可 能 的 划分 ,计算 量 极 大 。 实 
际 上 ,大 多 数 应 用 都 采用 了 流行 的 启发 式 方法 ,如 & 均 值 和 A& 中 心 点 算法 ,渐进 地 提高 聚 
类 质量 ,逼近 局 部 最 优 解 。 这 些 启 发 式 聚 类 方法 很 适合 发 现 中 小 规模 的 数据 库 中 的 球状 
复 。 为 了 发 现 具有 复杂 形状 的 簇 和 对 超大 型 数据 集 进行 聚 类 ,需要 进一步 扩展 基于 划分 
的 方法 。 在 6.2 节 , 将 深入 研究 基于 划分 的 聚 类 方法 。 


2. 层次 方法 


层次 方法 (hierarchical method) 给 出 了 给 定数 据 对 象 集 的 层次 分 解 。 根 据 层次 分 解 
如 何 形成 ,层次 方法 可 以 分 为 凝聚 的 或 分 裂 的 方法 。 凝 聚 的 方法 也 称 自 底 向 上 的 方法 , 开 
始 将 每 个 对 象 作为 单独 的 一 个 组 ,然后 逐次 合并 相近 的 对 象 或 组 ,直到 所 有 的 对 象 合并 为 
一 个 组 (层次 的 最 顶层 ) ,或 者 满足 某 个 终止 条 件 。 分 裂 的 方法 也 称 为 自 项 向 下 的 方法 , 开 
始 将 所 有 的 对 象 置 于 一 个 簇 中 。 在 每 次 相继 迭代 中 ,一 个 簇 被 划分 成 更 小 的 簇 ,直到 最 终 
每 个 对 象 在 单独 的 一 个 簇 中 ,或 者 满足 某 个 终止 条 件 。 层 次 方法 的 代表 算法 有 BIRCH 
算法 .CURE 算法 .Chameleon 算法 等 。 

层次 聚 类 方法 可 以 是 基于 距离 的 或 基于 密度 或 连通 性 的 。 层 次 方法 的 缺陷 在 于 ,一 
且 一 个 步骤 (合并 或 分 裂 ) 完 成 , 它 就 不 能 被 撤销 。 这 个 严格 规定 是 有 用 的 ,因为 担心 不 同 
选择 的 组 合 数目 , 它 将 产生 较 小 的 计算 开销 。 然 而 ,这 种 技术 不 能 更 正 错误 的 决定 。 目 前 
已 经 提出 了 一 些 提 高 层次 聚 类 质量 的 方法 。 层 次 聚 类 方法 将 在 6. 3 节 介绍 。 


3. 基于 密度 的 方法 


大 部 分 划分 方法 基于 对 象 之 间 的 距离 进行 聚 类 。 这 样 的 方法 只 能 发 现 球 状 复 ,而 在 
发 现任 意 形状 的 篮 时 会 遇 到 困难 。 已 经 开发 了 基于 密度 概念 的 聚 类 方法 (density-based 
method) ,其 主要 思想 是 : 只 要 一 个 区 域 中 的 点 的 密度 (对 象 或 数据 点 的 数目 ) 超 过 某 个 阅 
值 , 就 把 它 加 到 与 之 相近 的 聚 类 中 去 。 也 就 是 说 ,对 给 定 篮 中 的 每 个 数据 点 ,在 给 定 半径 
的 邻 域 中 必须 至 少 包含 最 少数 目的 点 。 这 样 的 方法 可 以 用 来 过 滤 噪声 或 离 群 点 ,发 现任 
意 形 状 的 位。 代表 算法 有 DBSCAN 算法 .OPTICS 算法 .DENCLUE 算法 等 。 

基于 密度 的 方法 可 以 把 一 个 对 象 集 划分 成 多 个 互 斥 的 复 或 能 的 分 层 结 构 。 通 常 , 基 
于 密度 的 方法 只 考虑 互 斥 的 复 ,而 不 考虑 模糊 侯 。 此 外 ,可 以 把 基于 密度 的 方法 从 整个 空 
间 聚 类 扩展 到 子 空间 聚 类 。 基 于 密度 的 聚 类 方法 在 6. 4 节 介绍 。 


4. 基于 网 格 的 方法 


基于 网 格 的 方法 (grid-based method) 把 对 象 空间 量化 为 有 限 个 单元 (cell) ,形成 一 个 
网 格 结构 ,所 有 的 处 理 都 是 以 单个 的 单元 为 对 象 的 。 这 种 方法 的 主要 优点 是 处 理 速度 很 
快 ,通常 这 是 与 目标 数据 库 中 记录 的 个 数 无 关 的 , 它 只 与 把 数据 空间 分 为 多 少 个 单元 有 
关 。 代 表 算法 有 STING 算法 .CLIQUE 算法 .WAVE-CLUSTER 算法 。 
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5. 基于 模型 的 方法 


基于 模型 的 方法 (model-based method) 给 每 一 个 聚 类 假定 一 个 模型 ,然后 寻找 能 够 
很 好 地 满足 这 个 模型 的 数据 集 。 这 样 一 个 模型 可 能 是 数据 点 在 空间 中 的 密度 分 布 函 数 
等 。 它 的 一 个 潜在 的 假定 就 是 : 目标 数据 集 是 由 一 系列 的 概率 分 布 所 决定 的 。 这 种 方法 
通常 有 两 种 尝试 方向 : 统计 的 方案 和 神经 网 络 的 方案 。 

K 6-1 简略 地 总 结 了 这 些 方法 。 有 些 聚 类 方法 集成 了 多 种 聚 类 方法 的 思想 ,因此 有 
时 很 难 将 一 个 给 定 的 算法 只 划 归 到 一 个 聚 类 方法 类 别 。 此 外 ,有 些 应 用 可 能 有 某 种 聚 类 
准则 ,要 求 集成 多 种 聚 类 技术 。 


表 6-1 本 章 讨论 的 聚 类 方法 概述 











y E 一 般 特 点 
。 RRA TL IE AY BE 
。 基 于 距离 

划分 方法 。 可 以 用 均值 或 中 心 点 等 代表 簇 中 心 


对 中 小 规模 数据 集 有 效 


聚 类 是 一 个 层次 分 解 ( 即 多 层 ) 
不 能 纠正 错误 的 合并 或 划分 
可 以 集成 其 他 技术 ,如 微 聚 类 或 考虑 对 象 "连接 ” 


可 以 发 现任 意 形 状 的 簇 

簇 是 对 象 空间 中 被 低 密度 区 域 分 隔 的 稠密 区 域 

簇 密度 规定 了 每 个 点 的 “ 邻 域 " 内 必须 具有 最 少 个 数 的 点 
可 以 过 滤 离 群 点 

使 用 一 种 多 分 辩 率 网 格 数据 结构 

快速 处 理 (典型 地 ,独立 于 数据 对 象 数 ,但 依赖 于 网 格 大 小 ) 


假设 模型 寻找 满足 的 数据 集 
不 适合 对 大 数据 库 进 行 聚 类 





层次 方法 





基于 密度 的 方法 





基于 网 格 的 方法 





基于 模型 的 方法 





62 基于 划分 的 方法 


聚 类 分 析 最 简单 .最 基本 的 方法 是 划分 , 它 把 对 象 组 织 成 多 个 互 斥 的 组 或 能。 在 这 
里 ,为 了 使 得 问题 的 描述 更 简洁 ,假定 簇 的 个 数 已 给 定 。 

给 定 nn 个 数据 对 象 的 数据 集 D 以 及 要 生成 的 复数 上 。 划 分 方法 将 D 中 的 对 象 分 配 
到 A ASHE Ci ,Cs,…,C 中 ,一 个 目标 函数 用 来 评估 划分 的 质量 ,使 得 簇 内 对 象 相似 ,而 与 
其 他 簇 中 的 对 象 相 异 。 也 就 是 说 ,该 目标 函数 以 徐 内 高 相似 性 和 簇 间 低 相似 性 为 目标 。 

本 节 学 习 最 常用 的 划分 方法 一 一 k-means(6. 2. 1 节 ) 和 中 心 点 (6. 2.2 节 )。 


6.2.1 k-means 算法 
k-means(kk 均值 ) 是 一 种 基于 形 心 的 划分 技术 ,即使 用 得 C; 的 形 心 代表 该 簇 。 
k-means 算法 把 簇 的 形 心 定义 为 簇 内 点 的 均值 , 它 的 算法 比较 简单 ,首先 介绍 它 的 处 理 流程 。 
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首先 ,在 数据 集 D 中 随机 地 选择 PRT. EP RT RAC RR — EH A E P o 
对 剩 下 的 每 个 对 象 ,根据 其 与 各 个 簇 中 心 的 欧 氏 距离 ,把 它 分 配 到 最 相似 的 徐 。 然 后 ,对 
于 每 个 簇 ,使 用 上 次 迭代 分 配 到 该 簇 的 对 象 ,计算 新 的 均值 。 然 后 ,使 用 更 新 后 的 均值 作 
为 新 的 簇 中 心 , 重 新 分 配 所 有 对 象 。 继 续 迭 代 , 直 到 分 配 稳 定 , 即 本 轮 形成 的 簇 与 前 一 轮 
JE RAY HE AAT], k-means 的 形式 描述 在 算法 6-1 中 。 
算法 6-1 用 于 划分 的 k-means 算法 
输入 : 
k: 簇 的 数目 ; 
D: 包含 nn 个 对 象 的 数据 集 。 
输出 :k 个 簇 的 集合 
PR: 
(1) 从 万 中 任意 选择 & PRE SE DY BE O; 
(2) repeat 
(3) 根据 艇 中 对 象 的 均值 ,将 每 个 对 象 分 配 到 最 相似 的 簇 ; 
(4) 更 新 簇 均 值 , 即 重新 计算 每 个 簇 中 对 象 的 均值 
(5) until 不 再 发 生变 化 。 


接 下 来 详细 地 考虑 基本 k-means 算法 的 每 个 步骤 ,并 给 出 一 个 实例 的 计算 过 程 。 
1. 分配 到 最 近 的 质心 


为 了 将 数据 点 分 配 到 最 近 的 质心 (中 心 ) ,需要 邻近 性 度量 来 量化 所 考虑 的 数据 的 “最 
近 ” 概 念 。 通 常 ,对 欧 氏 空间 中 的 点 使 用 欧 几 里 得 距离 .对 文档 用 余弦 相似 性 。 然 而 ,对 于 
给 定 的 数据 类 型 ,可 能 存在 多 种 适合 的 邻近 性 度量 。 

通常 ,k-means 使 用 的 相似 性 度量 相对 简单 ,因为 算法 要 重复 地 计算 每 个 点 与 每 个 质 
心 的 相似 度 。 然 而 ,在 某 些 情况 下 ,如 数据 在 低 维 欧 几 里 得 空间 时 ,许多 相似 度 的 计算 都 
有 可 能 避免 ,因此 显著 地 加 快 了 k-means 算法 的 速度 。 二 分 k-means 就 是 一 种 通过 减少 
相似 度 计 算 量 来 加 快 算法 速度 的 方法 。 


2. 质 必 和 目 标 函数 








k-means 算法 步 又 (4) 一 般 陈述 为 “重新 计算 每 个 簇 的 质心 ”, 因 为 质心 可 能 随 数据 邻 
近 性 度量 和 聚 类 目标 不 同 而 改变 。 聚 类 的 目标 通常 用 一 个 目标 函数 表示 ,该 函数 依赖 于 
点 之 间或 点 到 簇 的 质心 的 邻近 性 ,如 最 小 化 每 个 点 到 最 近 质 心 的 距离 的 平方 。 
考虑 邻近 性 度量 为 欧 几 里 得 距离 的 数据 ,使 用 误差 的 平方 和 (Sum of the Squared 
Error,SSE) 作 为 度量 聚 类 质量 的 目标 郴 数 。 换 言 之 ,计算 每 个 数据 点 的 误差 , 即 它 到 最 
近 质 心 的 欧 几 里 得 距离 ,然后 计算 误差 的 平方 和 。 给 定 由 两 次 运行 k-means 算法 产生 的 
两 个 不 同 的 簇 集 ,我 们 更 喜欢 误差 的 平方 和 最 小 的 那个 ,因为 这 说 明 此 时 聚 类 的 质心 可 以 
更 好 地 代表 簇 的 中 点 。SSE 的 定义 如 下 : 
SSE = >) >) dist (cx)? (6-1) 


i=l 2€C, 
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其 中 ,dist 是 标准 欧 几 里 得 距离 ,k 是 类 簇 个 数 ,z 是 类 簇 C; 中 的 一 个 数据 对 象 ,c; ERE 
Ci; 质心 。 

步骤 (3) 和 步骤 (4) 试 图 直接 最 小 化 SSE( 或 更 一 般 地 ,目标 函数 ) 。 步 骤 (3) 通 过 将 对 
象 分 配 到 最 近 的 质心 形成 得 ,最 小 化 关于 给 定 质心 集 的 SSE; 而 步骤 (4) 重 新 计算 质心 , 进 
一 步 最 小 化 SSE。 然 而 ,k-means 的 步骤 (3) 和 步骤 (4) 只 能 确保 找到 关于 SSE 的 局 部 最 
优 ,因为 它们 是 对 选 定 的 质心 和 簇 而 不 是 对 所 有 可 能 的 选择 来 优化 SSE. 


3. 选择 初始 质心 


选择 适当 的 初始 质心 是 基本 k-means 过 程 的 关键 步 又。 常见 的 方法 是 随机 地 选取 初 
始 质心 ,但 是 簇 的 质量 常常 很 差 。 实 践 中 ,为 了 得 到 好 的 结果 ,通常 以 不 同 的 初始 得 中 心 
多 次 运行 k-means 算法 。 

例 6-1 使 用 k-means 的 聚 类 划分 。 

考虑 二 维 空间 中 的 10 个 点 ,它们 的 值 分 别 为 A1(0. 5,2),As(0. 8,3),As(1.2,0.6)， 
Ai(1l,6,2,2),As(2.4,3.6),As(2.5,2.8),Bi(2;2,1.8),Bs(3,2.5)Bs(2.8,1.6),B,(4, 
1) ,如 图 6-1(a) 所 示 , 其 中 ,Ai、A,、A;、A,、As As 用 灰色 实心 圆 表示 ,Bi .B, B, B, 用 黑 
色 实 心 圆 表 示 。 令 二 2, 即 用 户 要 求 将 这 些 对 象 划 分 成 两 个 簇 。 

根据 算法 6-1, 任 意 选 择 两 个 对 象 作为 两 个 初始 的 簇 中 心 ,其 中 簇 中 心 用 “十 ”标记 。 

Q) 假设 选择 By Bs 分 别 为 每 个 簇 的 初始 中 心 , 即 O = By = (2, 2,1. 8) ,0. = Bs = 
(2. 8,1.6)。 

D 对 剩余 的 每 个 对 象 , 根 据 其 与 各 个 簇 中 心 的 距离 ,将 它 赋 给 最 近 的 艇 。 这 种 分 配 
形成 了 如 图 6-1(a) 中 虚线 所 描绘 的 轮廓 。 














vi vi 
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(a) 初始 聚 类 (一 次 迭代 ) (b) 最 终 聚 类 (二 次 迭代 ) 


图 6-1 使 用 k-means 方法 聚 类 对 象 集 
对 于 Al, 它 与 两 个 簇 中 心 的 距离 为 
d(O1,A1) = /O.5—2.29 +@—1. 8)? = 1.712 
d(O ,Ai) (0.5 — 2.8)? + (2—1. 6)? = 2.377 
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显然 d(O, -A\)<d(Oz,A,) , 故 将 A, 分 配给 O 所 在 簇 。 
同样 地 ,对 于 B,, 它 与 两 个 簇 中 心 的 距离 为 
d(O, Bz) G= 2.2) + (2.5 —1.8)? = 1. 063 























d(O, + Bz) (3— 2. 8)? + @.5—1. 6)? = 0.912 

这 里 d(O, .B,) >d(O; .B,) , 故 将 B: 分 配给 O: 所 在 簇 。 

对 剩余 对 象 都 分 配 完 后 ,得 到 的 新 簇 为 O = (A; Az s As s A; s As As B1} +O. ={ Bo» 
B; ,B,) ,这 样 就 形成 了 如 图 6-1(a) 中 虚线 所 描绘 的 轮廓 。 

(3) 计算 新 的 簇 的 中 心 : 

O, 一 ((0.5 十 0.8 十 1.2 十 1.6 十 2.2 十 2.4 十 2.5))/7， 
((2 十 3 十 0.5 十 2.2 十 1.3 十 3.6 十 3.8)/7) = (1.6,2.3) 
O: = 二 ((2.8 十 3 十 4)/3,(1.5 十 2.5 十 1)/3) = (3.3,1.7) 

重复 步骤 (2) ,更 新 得 到 新 徐 O, = {A,.A2.A3+Ay+As+Ac}+O2={ Bi. Bz, B3 , By} IB 
成 如 图 6-1(b) 中 虚线 所 描绘 的 轮廓 。 

重复 以 上 过 程 ,在 第 三 次 迭代 之 后 ,此 时 竹中 心 不 再 改变 ,停止 迁 代 过 程 , 算 法 停止 ， 
最 终 划分 结果 如 图 6-1(b) 所 示 。 

k-means 算法 的 复杂 度 为 O(nk1) ,其 中 是 对 象 总 数 ,k 是 簇 数 ,i 是 迭代 次 数 。 通 常 
kn 并 且 1<<n。 因 此 ,对 于 处 理 大 数据 集 ,该 算法 是 相对 可 伸缩 的 和 有 效 的 。 

k-means 方法 有 一 些 变 种 ,它们 可 能 在 初始 个 均值 的 选择 、 相 异 度 的 计算 、 簇 均值 
的 计算 策略 上 有 所 不 同 。 然 而 ,对 于 发 现 不 同 的 簇 类 型 ,Ameans 和 它 的 变种 都 具有 一 些 
局 限 性 。 具 体 地 说 , 当 徐 具有 非 球形 形状 或 具有 不 同 尺寸 或 密度 时 ,k-means 很 难 检 测 到 
“Hi. WE 6-2、 图 6-3 和 图 6-4 所 示 。 在 图 6-2 中 ,k-means 不 能 发 现 那 3 个 自然 
徐 , 因 为 其 中 一 个 簇 比 其 他 两 个 大 得 多 ,因此 较 大 的 簇 被 划分 开 , 而 一 个 较 小 的 簇 与 较 大 
簇 的 一 部 分 合并 在 一 起 。 在 图 6-3 中 ,k-means 未 能 发 现 那 3 个 自然 簇 ,因为 两 个 较 小 的 
徐 比 较 大 的 簇 稠密 得 多 。 在 图 6-4 中 ,k-means 发 现 了 两 个 徐 ( 两 个 自然 簇 的 混合 体 ), 因 
为 两 个 自然 徐 的 形状 不 是 球形 的 。 
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(a) 3 个 “自然 数 ” (b) k-means 划分 的 3 个 簇 


图 6-2 k-means; RA AIRY AB 


这 3 种 情况 的 问题 在 于 k-means Á E fa PG He fT] ak E A E BE HY E AR ie, A 
为 k-means 目标 函数 是 最 小 化 等 尺寸 和 等 密度 的 球形 簇 或 者 明显 分 离 的 簇 。 


6.2.2 天 中 心 点 算法 
k-means 算法 对 离 群 点 敏感 ,因为 这 种 对 象 远离 大 多 数 数据 .因此 分 配 到 一 个 簇 时 ， 
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(a) 3 个 “自然 簇 ” (b) k-means 划分 的 2 个 簇 
图 6-4 k-means; 非 球形 的 簇 


它们 可 能 严重 地 扭曲 了 簇 的 均值 ,这 不 经 意 间 影响 了 其 他 对 象 到 簇 的 分 配 。 正 如 在 
例 6-2 中 所 观察 到 的 , 式 (6-1) 平 方 误差 函数 的 使 用 更 是 严重 恶化 了 这 


-影响 。 
例 6-2 k-means 的 缺点 。 
考虑 一 维 空间 的 7 个 点 ,它们 的 值 分 别 为 1,2,3.8,9.10,25。 


直观 地 ,通过 视觉 观察 ,我 们 猜想 这 些 点 划分 成 簇 {1,2,3} 和 {8,9,10} ,而 点 25 被 排 
除 , 因 为 它 看 上 去 是 一 个 离 群 点 


k-means 如 何 划 分 这 些 值 ? 如 果 以 k= 二 2 和 式 (6-1) 使 
用 k-means 划分 为 {{1,2,3),{8,9,10,25)}, 具 有 簇 内 变 差 
(1 一 2)? 十 (2 一 2)? 十 (3 一 2)? 十 (8 一 13)* 十 (9 一 13)* 十 (10 一 13)? 
+ (25 — 13)? 
= 196 





HEP HE (1.2.3) AW 2.98 (8.9.10,25) WII 13. IX — KI PGP (1.2,3, 
8},{9,10,25}} 比 较 , 后 者 的 簇 内 变 差 为 

(1 一 3.5) 十 (2 一 3.5)? 十 (3 一 3.5)? 十 (8 
十 (10 一 14.67)? 十 (25 一 14.67)? 
= 189.67 





3. 5)? + (9 — 14. 67)? 


其 中 , 簇 {1,2,3,8} 的 均值 为 3.5. 簇 {19,10,25} 的 均值 为 14. 67。 后 一 个 划分 具有 最 小 簇 
内 变 差 。 因 此 ,由 于 离 群 点 25 的 缘故 ,k-means 方法 没有 把 8 分 配 到 9 和 10 所 在 的 簇 。 


此 外 ,第 二 个 能 中 心 为 14. 67, 显 著 地 偏离 能 中 的 所 有 成 员 。 
| 
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如 何 修改 k-means 算法 ,降低 它 对 离 群 点 的 敏感 性 ?可 以 不 采用 簇 中 对 象 的 均值 作 

为 参照 点 ,而 是 挑选 实际 对 象 来 代表 簇 ,每 个 簇 使 用 一 个 代表 对 象 ,其 余 的 每 个 对 象 被 分 

配 到 与 其 最 为 相似 的 代表 性 对 象 所 在 的 簇 中 。 于 是 ,划分 方法 基于 最 小 化 所 有 对 象 p 与 

其 对 应 的 代表 对 象 之 间 的 相 异 度 之 和 的 原则 来 进行 划分 。 确 切 地 说 ,使 用 了 一 个 绝对 误 
差 标 准 (absolute-error criterion) ,其 定义 如 下 : 

E= S Waist(p.0 (6-2) 


i=1 p€C; 

其 中 ,已 是 数据 集中 所 有 对 象 与 类 C; 的 代表 对 象 0; 的 绝对 误差 之 和 。 这 是 中心 点 
(k-medoids) 方 法 的 基础 。k 中 心 点 聚 类 通过 最 小 化 该 绝对 误差 ( 式 (6-2)), 把 nn 个 对 象 
划分 到 k AEP 

围绕 中 心 点 划分 (Paritioning Around Mediods,PAM) 算 法 (算法 6-2) FE k Pub HK 
类 的 一 种 流行 实现 。 它 用 和 迭代、 贪心 的 方法 处 理 该 问题 。 与 k-means 算法 一 样 ,初始 代表 
对 象 ( 称 作 种 子 ) 任 意 选取 。 考 虑 用 一 个 非 代表 对 象 替换 一 个 代表 对 象 是 否 能 够 提高 聚 类 
质量 。 尝 试 所 有 可 能 的 蔡 换 。 继 续 用 其 他 的 对 象 蔡 换代 表 对 象 的 迭代 过 程 ,直到 结果 聚 
类 的 质量 不 可 能 被 任何 替换 提高 。 聚 类 质量 用 对 象 与 其 得 中 代表 对 象 的 平均 相 异 度 的 代 
价 函数 度量 。 


算法 6-2 PAM ,一 种 基于 中 心 的 中 心 点 算法 
输入 : 
k: 簇 的 数目 
D: 包含 nn 个 对 象 的 数据 集 
输出 :个 簇 的 集合 
步骤 ， 
(1) A D PERH h 个 对 象 作为 初始 的 代表 对 象 或 种 子 ; 
(2) repeat 
(3) 将 每 个 剩余 的 对 象 分 配 到 最 近 的 代表 对 象 所 代表 的 簇 ; 
(4) 随机 地 选择 一 个 非 代表 对 象 Ownom ; 
(5) 计算 用 Ondon EREI R O; 的 总 代价 S; 
(6) if S<O, then Own 替换 O; ,形成 新 的 上 个 代表 对 象 的 集合 ; 
(7) until 不 再 发 生变 化 。 


具体 地 说 , 设 O, ,0O;,…,O 是 当前 代表 对 象 ( 即 中 心 点 ) 的 集合 。 为 了 决定 一 个 非 代 
表 对 象 Oismaon 是否 是 一 个 当前 中 心 点 O (1 三 j 二 k) 的 好 的 蔡 代 ,计算 每 个 对 象 p 到 集合 
{0 ,Oj-1，Omndom*Oj+1，… ,Ok} 中 最 近 对 象 的 距离 ,并 使 用 该 距离 更 新 代价 函数 。 对 象 
重新 分 配 到 {O ，… ,Oj-1,Ormnaom Oj;+2，… ,0O) 中 是 简单 的 。 假 设 对 象 p 当前 被 分 配 到 中 
DA O; 代表 的 簇 中 ( 见 图 6-5(a) 或 图 6-5(b))。 在 O; W Ondon 置换 后 ,需要 把 p 重新 分 
配 到 不 同 的 簇 吗 ? 对 象 p 需要 重新 分 配 , 被 分 配 到 Ooam 还 是 其 他 O: GA j ARB I HE. HL 
决 于 哪个 最 近 。 例 如 ,在 图 6-5(a) 中 ,p 离 0; 最近, 因此 它 被 重新 分 配 到 O;。 然 而 ,在 
图 6-5(b) 中 ,p 离 Oiwson 最 近 , 因 此 它 被 重新 分 配 到 Oom 。 如 果 p 当前 被 分 配 到 其 他 对 
RO GAP) RRP LUZEA? 只 要 对 象 p BO; 仍然 比 离 Dam 更 近 , 那 么 它 就 仍 
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然 被 分 配 到 O; 代表 的 簇 ( 见 图 6-56). AW. p 被 重新 分 配 到 Owaon( 见 图 6-5(d)) 。 
图 6-5 中 , 实 箭 线 表示 蔡 换 前 的 分 配 情况 , 虚 箭 线 表示 蔡 换 后 的 分 配 情况 。 









































4 P 401 4 Ee e 数据 对 象 
0 Ps \ 0 40| s apò 
Sa ý 一 — 普 换 前 
+ + + pe- -+ 
Orandom O random Orandom random - 一 替换 后 
(a) 重新 分 配给 O (b) 重新 分 配给 Cuosom (0) 不 发 生变 化 (d) 重新 分 配给 Consen 


图 6-5 中心 点 聚 类 代价 函数 的 4 种 情况 


每 当 重 新 分 配 发 生 时 ,绝对 误差 E 的 差 对 代价 函数 有 影响 。 因 此 ,如 果 一 个 当前 的 
代表 对 象 被 非 代表 对 象 所 取代 , 则 代价 函数 就 计算 绝对 误差 值 的 差 。 交 换 的 总 代价 是 所 
有 非 代 表 对 象 所 产生 的 代价 之 和 。 如 果 总 代价 为 负 , 则 实际 的 绝对 误差 已 将 会 减 小 ,O 
可 以 被 Owoaom 取 代 或 交换 ;如 果 总 代价 为 正 , 则 认为 当前 的 代表 O; 是 可 接受 的 ,在 本 次 迭 
代 中 没有 发 生变 化 。 

当 存 在 噪声 和 离 群 点 时 ,k 中 心 点 方法 比 k-means 更 鲁 棒 , 这 是 因为 中 心 点 不 像 均值 
那样 容易 受 离 群 点 或 其 他 极端 值 影响 。 然 而 ,k 中 心 点 每 次 迭代 的 复杂 度 是 O (k(n 一 
k))。 当 n 和 的 值 很 大 时 ,这 种 计算 开销 远 高 于 means 方法 。 另 外 ,这 两 种 方法 都 要 
求 用 户 指定 复数 人 。 

像 PAM( 算 法 6-2) 这 样 的 典型 的 & 中 心 点 算法 在 小 型 数据 集 上 运行 良好 ,但 是 不 能 
很 好 地 用 于 大 数据 集 。 为 了 处 理 大 数据 集 ,可 以 使 用 一 种 称 作 CLARA (Clustering 
LARge Applications, 聚 类 大 型 应 用 ) 的 基于 抽样 的 方法 。CLARA 并 不 考虑 整个 数据 集 
合 , 而 是 使 用 数据 集 的 一 个 随机 样本 。 最 后 使 用 PAM 方法 由 样本 计算 最 佳 中 心 点 。 


63 基于 层次 的 方法 


在 某 些 应 用 中 , 想 把 数据 划分 成 不 同 层 的 组 群 ,数据 具有 一 个 我 们 想 要 发 现 的 基本 层 
次 结构 。 对 于 数据 汇总 和 可 视 化 ,用 层次 结构 的 形式 表示 数据 对 象 是 有 用 的 。 例 如 ,层次 
聚 类 可 以 揭示 企业 雇员 在 收入 上 的 分 层 结构 ,可 以 把 雇员 组 织 成 较 大 的 组 群 ,如 主管 、 经 
理 和 职员 。 把 这 些 组 进一步 划分 成 较 小 的 子 组 群 。 例 如 ,一 般 的 职员 组 可 以 进一步 划分 
成 高 级 职工 .职员 和 实习 人 员 。 所 有 这 些 组 群 形成 了 一 个 层级 结构 。 在 进化 研究 中 ,层次 
聚 类 可 以 按 动物 的 生物 学 特征 对 它们 分 组 ,发 现 进化 路 径 , 即 物 种 的 分 层 结构 。 

本 节 学 习 层次 聚 类 。 在 6. 3. 1 节 , 首 先 介绍 凝聚 的 和 分 裂 的 层次 聚 类 。 对 层次 聚 类 
算法 的 距离 度量 将 在 6. 3. 2 节 展 开 。 


6.3.1 凝聚 的 与 分 裂 的 层次 聚 类 


层次 聚 类 技术 是 第 二 类 重要 的 聚 类 方法 。 和 k-means 一 样 ,与 许多 聚 类 方法 相 比 , 层 
次 聚 类 方法 相对 较 老 ,但 是 它们 仍然 被 广泛 使 用 。 根 据 层次 分 解 的 形成 方式 是 自 底 向 上 
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(合并 ) 还 是 自 顶 向 下 (分 裂 ), 有 两 种 产生 层次 聚 类 的 基本 方法 。 

凝聚 的 层次 聚 类 方法 使 用 自 底 向 上 的 策略 。 从 每 个 对 象 作为 个 体 徐 开始 ,每 一 步 合 
并 两 个 最 接近 的 簇 。 这 需要 定义 簇 的 邻近 性 概念 。 

分 裂 的 层次 聚 类 方法 使 用 自 顶 向 下 的 策略 。 从 包含 所 有 对 象 的 某 个 簇 开始 ,每 一 步 
分 裂 一 个 簇 ,直到 仅 剩 下 单 点 簇 。 在 这 种 情况 下 ,需要 确定 每 一 步 分 裂 哪个 簇 ,以 及 如 何 
分 裂 。 

在 凝聚 的 或 分 裂 的 层次 聚 类 中 ,用户 都 可 以 指定 期 望 的 簇 个 数 作 为 终止 条 件 。 

例 6-3 凝聚 和 分 裂 层 次 聚 类 。 

图 6-6 显示 了 一 种 凝聚 的 层次 聚 类 算法 和 一 种 分 裂 的 层次 聚 类 算法 在 一 个 包含 5 个 
对 象 的 数据 集 {fe,0,c,d,e} 上 的 处 理 过 程 。 初 始 时 ,凝聚 方法 将 每 个 对 象 自 成 一 簇 , 然 后 
这 些 秘 根据 某 种 准则 逐步 合并 。 例 如 ,如 果 簇 Cy 中 的 一 个 对 象 和 簇 C* 中 的 一 个 对 象 之 
间 的 距离 是 所 有 属于 不 同 徐 的 对 象 间 欧 氏 距离 中 最 小 的 , 则 C 和 C* 可 能 被 合并 。 簇 合 
并 过 程 反 复 进行 ,直到 所 有 对 象 最 终 合并 到 一 个 簇 。 

数据 集 步骤 1 步骤 2 步骤 3 步骤 4 


凝聚 的 一 
层次 聚 类 











CO 
Q> 
(o 
CO 
Ce 





4 AAH 
ses 步骤 3 步骤 2 步骤 1 初始 给 EURE 


图 6-6 数据 对 象 fa,b,c,d,e} 的 凝聚 和 分 裂 层 次 聚 类 


分 裂 方 法 以 相反 的 方法 处 理 。 所 有 的 对 象形 成 一 个 初始 簇 ,根据 某 种 原则 (如 簇 中 最 
近 的 相 邻 对 象 的 最 大 欧 氏 距离 ) 将 该 簇 分 裂 。 簇 的 分 裂 过 程 反 复 进行 ,直到 最 终 每 个 新 的 
簇 只 包含 一 个 对 象 。 

层次 聚 类 常常 使 用 称 作 树 状 图 (dendrogram) 的 类 似 于 树 的 图 显示 。 该 图 显示 簇 一 
子 簇 的 联系 和 簇 凝聚 或 分 裂 的 次 序 。 对 于 二 维 点 的 集合 ,层次 聚 类 也 可 以 使 用 嵌 套 簇 图 
(nested cluster diagram) 表 示 。 图 6-7 是 对 例 6-3 中 的 5 个 对 象 的 数据 集 进 行 层次 聚 类 
的 结果 ,显示 了 这 两 种 图 的 例子 。 


6.3.2 REPERE 


TCG (i FE BER DT EIB FE PBST. A D PE PE dS ,其 中 每 个 
HE — TE — POR 
根据 簇 间距 离 度量 方法 的 不 同 ,可 将 层次 聚 类 分 为 单 连接 (single-linkage) 全 连接 
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(complete-linkage) 和 平均 连接 (average-linkage)3 种 方法 ,其 中 单 连接 采用 的 是 最 小 距 
离 ,全 连接 采用 的 是 最 大 距离 ,平均 连接 采用 的 是 平均 距离 。3 种 距离 定义 如 下 ,其 中 
| op" | EDA Rt eZ Ti] I 


最 小 距离 distain (Ci Cj) = = |\p—p'|} (6-3) 

最 大 距离 : distmax(CisC;) = max {|p—p’|} (6-4) 
PEC, PEC, 

平均 距离 ; distws (CC) = D |p—p’| (6-5) 





ninj PEC PEC, 


这 3 AE URE AR AB UR FBS EF PL Bk PPE Be CA PK eE SD ae SCV) E 
离 为 不 同 复 的 两 个 最 近 的 点 之 间 的 距离 ,或 者 使 用 图 的 术语 ,是 不 同 的 节点 子 集中 两 个 节 
点 之 间 的 最 短 边 。 全 连接 (也 称 最 大 距离 ) 取 不 同 簇 中 两 个 最 远 的 点 之 间 的 距离 作为 簇 间 
距离 ,或 者 使 用 图 的 术语 ,是 不 同 的 节点 子 集中 两 个 节点 之 间 的 最 长 边 。 平 均 连接 (也 称 
平均 距离 ) 定 义 簇 间距 离 为 取 自 不 同 篮 的 所 有 点 对 距离 的 平均 值 。 图 6-8 给 出 了 这 3 种 
方法 的 示意 图 。 





(a) 单 连接 (b) 全 连接 (c) 平均 连接 
6-8 ”得 间 距离 度量 基于 图 的 定义 


例 6-4 连接 度量 的 不 同 使 用 。 

为 了 解释 不 同 距离 度量 方法 ,本 例 使 用 包含 6 个 二 维 点 的 样本 数据 ,如 图 6-9 所 示 。 
数据 点 之 间 的 欧 几 里 得 距离 如 图 6-10 所 示 。 

(1) 单 连接 (最 小 距离 )。 对 于 层次 聚 类 的 单 连接 或 最 小 距离 技术 ,两 个 簇 的 距离 定 
义 为 两 个 簇 中 任意 两 点 之 间 的 最 短 距离 (最 大 相似 度 )。 使 用 图 的 术语 ,如 果 从 所 有 点 作 
为 单 点 簇 开 始 ,每 次 在 点 之 间 加 上 一 条 链 ,最 短 的 链 先 加 , 则 这 些 链 将 合并 成 簇 。 单 连接 
技术 擅长 处 理 非 椭圆 形状 的 得 ,但 对 噪声 和 离 群 点 很 敏感 。 
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图 6-9 6 个 二 维 点 的 数据 集 
pl p2 p3 p4 ps p6 
pl [70.0000 0.2357 0.2218 0.3688 0.3421 0.2347 
p2 | 0.2357 0.0000 0.1483 0.2042 0.1388 0.2540 
p3 | 0.2218 0.1483 0.0000 0.1513 0.2843 0.1100 
p4 | 0.3688 0.2042 0.1513 0.0000 0.2932 0.2216 
ps | 0.3421 0.1388 0.2843 0.2932 0.0000 0.3921 
p6 [0.2347 0.2540 0.1100 0.2216 0.3921 0.0000 


图 6-10 6 个 点 的 欧 几 里 得 距离 矩阵 


图 6-11 显示 了 将 单 连接 技术 用 于 6 个 点 数据 集 例子 的 结果 。 图 6-11 Cad) ARE AS 
圆 序列 显示 典 套 的 得, 其 中 与 椭圆 相关 联 的 数 指示 聚 类 的 次 序 。 图 6-11(b) 显 示 了 同样 
的 信息 ,但 使 用 树 状 图 表示 , 树 状 图 中 两 个 复合 并 处 的 高 度 反映 两 个 篮 的 距离 。 例 如 ,由 
图 6-10 ,我 们 看 到 点 3 和 6 的 距离 是 0. 11 ,这 就 是 它们 在 树 状 图 里 合并 处 的 高 度 。 再 看 
另 一 个 例子 , 徐 43,.6} 和 {2,5} 之 间 的 距离 是 
dist({3.6}.{2.5})= min(dist(3,2).dist(6.2).dist(3.5).dist(6.5)) 
= min(0. 15,0. 25,0. 28,0. 29) 
= 0.15 
(2) SRRCRABB). MPR UR Hie Be i KB BGR , PAR hE R E 
Sa BAG AS AS Fk P AE E A ZW) A HS BPS Geb) o AF E HIRE RT A 
点 作为 单 点 簇 开始 ,每 次 在 点 之 间 加 上 一 条 链 , 最 短 的 链 先 加 , 则 一 组 点 直到 其 中 所 有 的 
点 都 完全 被 连接 才 形 成 一 个 簇 。 全 连接 对 噪声 和 离 群 点 不 太 敏 感 ,但 是 它 可 能 使 得 大 的 
HEWES ,并 且 偏 好 球状 。 
图 6-12 显示 了 将 全 连接 用 于 6 个 样本 数 点 集 的 结果 。 与 单 连接 一 样 ,点 3 和 6 首先 
合并 。 然 后 ,{3,6} 与 {4} 合 并 ,而 不 是 与 {2,5) 或 {1} 合 并 ,因为 
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(a) PAE ET (b) 单 连接 树 状 图 
6-11 6 个 数据 点 的 单 连接 层次 聚 类 


dist({3.6}.{4}) = max (dist(3,4) ,dist(6.4)) 
= max (0. 15,0. 22) 
= 0. 22 
dist({3,6},{2,5})= max (dist(3.2),dist{6,2}.dist(3,5),dist(6,5)) 
= max (0, 15,0. 25,0, 28,0. + 0. 39) 
= 0.39 
dist({3,6}.{1})= max (dist(3,1),dist(6,1)) 
= max (0, 22,0. 23) 








= 0. 23 
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(a) EEE (b) 全 连接 树 状 图 











6-12 6 个 点 的 全 连接 层次 聚 类 


(3) 平均 连接 (平均 距离 )。 对 于 层次 聚 类 的 平均 连接 度量 方法 ,两 个 艇 的 距离 定义 
为 不 同 复 的 所 有 点 对 距离 的 平均 值 。 这 是 一 种 介 于 单 连接 和 全 连接 之 间 的 折 中 方法 。 

图 6-13 显示 了 将 平均 连接 用 于 6 个 样本 数据 点 集 的 结果 。 为 了 解释 平均 连接 如 何 
工作 ,计算 某 些 艇 之 间 的 距离 : 
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dist({3,654},{1}) = (0. 22 +0. 37 +0. 23)/(3 X 1) = 0. 28 
dist({2,5}.{1}) = (0. 2357 +0. 3421)/(2 X 1) = 0. 2889 
dist({3,6,4},{2,5}) = (0. 15 +0. 28 +0. 25+0. 39 +0. 20 +0. 29)/(3 X 2) 
= 0.26 
因为 dist({3,6,4},{2,5}) 比 dist({3.6,4}.{1}) M dist({2.5}.{1})\, {3,6,4} 和 {2， 
5) 在 第 4 阶段 合并 。 
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图 6-13 6 个 点 的 平均 连接 层次 聚 类 


64 基于 密度 的 方法 


划分 和 层次 方法 旨 在 发 现 球 状 簇 。 它 们 很 难 发 现任 意 形状 的 簇 , 如 图 6-14 中 S 形 和 椭圆 
形 徐 。 给 定 这 种 数据 ,它们 很 可 能 不 正确 地 识别 凸 区域 , 其 中 噪声 或 离 群 点 被 包含 在 秘 中 。 
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为 了 发 现任 意 形 状 的 复 ,作为 选择 ,可 以 把 簇 看 作 数据 空间 中 被 稀疏 区 域 分 开 的 稠密 区 
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域 。 这 是 基于 密度 的 聚 类 方法 的 主要 策略 ,该 方法 可 以 发 现 非 球状 的 徐 。 本 节 首 先 介绍 密 
度 的 主要 概念 (6. 4. 1 节 ) ,介绍 一 种 基于 密度 聚 类 的 代表 性 方法 一 一 DBSCAN(6.4.2 节 )。 


6.4.1 传统 的 密度 : 基于 中 心 的 方法 


尽管 定义 密度 的 方法 没有 定义 相似 度 的 方法 多 ,但 仍 存在 几 种 不 同 的 方法 。 本 节 讨 
论 DBSCAN 使 用 的 基于 中 心 的 方法 。 
在 基于 中 心 的 方法 中 ,数据 集中 特定 点 的 密度 
通过 对 该 点 Eps 半径 之 内 的 点 计数 (包括 点 本 身 ) 来 
估计 ,如 图 6-15 所 示 。 点 A 的 Eps 半径 内 点 的 个 数 
为 7, 包 括 A 本身 。 
该 方法 实现 简单 ,但 是 点 的 密度 取决 于 指定 的 
半径 。 例 如 ,如 果 半 径 足 够 大 , 则 所 有 点 的 密度 都 等 
于 数据 集中 的 点 数 mx。 同 理 , 如 果 半 径 太 小 , 则 所 有 
点 的 密度 都 是 1。 
根据 基于 中 心 的 密度 进行 点 分 类 ,可 以 将 点 分 
类 为 稠密 区 域内 部 的 点 (核心 点 ) .稠密 区 域 边缘 上 图 6-15 基于 中 心 的 密度 
的 点 (边界 点 ) 以 及 稀疏 区 域 中 的 点 (噪声 点 或 背景 
点 )。 图 6-16 使 用 二 维 点 集 图 示 了 核心 点 .边界 点 和 噪声 点 的 概念 。 


边界 点 核心 点 





图 6-16 ”核心 点 .边界 点 和 噪声 点 


。 核心 点 (core point)。 这 些 点 在 基于 密度 的 簇 内 部 。 点 的 邻 域 由 距离 函数 和 用 户 
指定 的 距离 参数 Eps 决定 。 如 果 一 个 点 的 给 定 邻 域内 的 点 的 个 数 超过 给 定 的 阔 
ffl MinPts, 其 中 MinPts 也 是 一 个 用 户 指定 的 参数 . 则 该 点 称 为 核心 点 。 在 
图 6-16 中 ,点 A 是 核心 点 。 

边界 点 (border point)。 边 界 点 不 是 核心 点 ,但 它 落 在 某 个 核心 点 的 邻 域内 。 在 
图 6-16 中 ,点 B 是 边界 点 。 边 界 点 可 能 落 在 多 个 核心 点 的 邻 域内 。 

。 RA (noise point) 。 噪 声 点 是 既 非 核心 点 也 非 边 界 点 的 任何 点 。 在 图 6-16 H, 
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点 C 是 噪声 点 。 


给 定 核心 点 ,边界 点 和 噪声 点 的 定义 ,下 面 解释 DBSCAN 所 用 到 的 一 些 基本 术语 。 


WRAY e- 邻 域 : 给 定 对 象 在 半径 = 内 的 区 域 。 

核心 对 象 (core object) 。 如 果 一 个 对 象 的 | 邻 域 至 少 包 含 最 小 数目 MinPts 个 对 
象 , 则 称 该 对 象 为 核心 对 象 。 

直接 密度 可 达 (directly density-reachable) 。 给 定 一 个 对 象 集合 D, 如 果 p 是 在 gq 
的 s 邻 域内 ,而 g 是 一 个 核心 对 象 ,就 说 对 象 p 从 对 象 g 出 发 是 直接 密度 可 达 的 。 
密度 可 达 的 (density-reachable) 。 如 果 存 在 一 个 对 象 链 pis proces Pa ETE pi = 
q+ Pn =P FF AMF pi © DASI<n), pir BEM pi; 关于 se Al MinPts 直接 密度 可 达 
的 , 则 对 象 p 是 从 对 象 g 关于 se 和 MinPts 密度 可 达 的 。 

密度 相连 的 (density-connected) 。 如 果 对 象 集合 D 中 存在 一 个 对 象 o ,使 得 对 象 
PP 和 g 是 从 o 关于 se 和 MinPts 密度 可 达 的 ,那么 对 象 p 和 g 是 关于 e 和 MinPts 
密度 相连 的 。 


例 6-5 密度 可 达 和 密度 相连 。 
给 定 圆 的 半径 为 s, 另 MinPts 二 3, 考 虑 图 6-17。 

















图 6-17 基于 密度 的 聚 类 中 的 密度 可 达 和 密度 相连 


在 被 标记 的 点 中 , po Mr 都 是 核心 对 象 ,因为 它们 的 © 邻 域内 都 至 少 包含 3 个 对 
象 。 对 象 g 是 从 m 直接 密度 可 达 的 。 对 象 m 是 从 p 直 接 密度 可 达 的 ,并 且 反 之 亦 然 。 

对 象 g 是 从 p (间接) 密度 可 达 的 ,因为 g 是 从 m 直接 密度 可 达 的 ,并 且 m 是 从 p E 
接 密 度 可 达 的 。 然 而 ,p 并 不 是 从 g 密度 可 达 的 ,因为 g 不 是 核心 对 象 。 类 似 地 ,r As 是 
从 o 密度 可 达 的 ,而 o 是 从 r 密度 可 达 的 。 因 此 .,o、r Al 都 是 密度 相连 的 。 


6.4.2 DBSCAN 算法 


初始 时 ,给 定数 据 集 D 中 的 所 有 对 象 都 被 标记 为 unvisited。DBSCAN 随机 地 选择 一 
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个 未 访问 的 对 象 p. tric p 为 visited, 并 检查 p He 邻 域 是 否 至 少 包 含 MinPts 个 对 象 。 
如 果 不 是 , 则 p 被 标记 为 噪声 点 。 否 则 ,为 p 创建 一 个 新 的 簇 C, 并 且 把 p We 邻 域 中 的 
所 有 对 象 都 放 到 候选 集合 N 中 。DBSCAN 和 迭代 地 把 N 中 不 属于 其 他 簇 的 对 象 添加 到 C 
中 。 在 此 过 程 中 ,对 于 N 中 标记 为 unvisited 的 对 象 p’.DBSCAN 把 它 标 记 为 visited ,并 
且 检 查 它 的 e Bk. WE p hje BREDA MinPts 个 对 象 , 则 p' 的 e 邻 域 中 的 对 象 都 被 
添加 到 N 中 。DBSCAN 继续 添加 对 象 到 C, 直 到 C 不 能 再 扩展 , 即 直到 N 为 空 。 此 时 ， 
HE C 完全 生成 ,于 是 被 输出 。 

为 了 找 出 下 一 个 簇 ,DBSCAN 从 剩 下 的 对 象 中 随机 地 选择 一 个 未 访问 的 对 象 。 聚 类 
过 程 继 续 , 直 到 所 有 对 象 都 被 访问 。DBSCAN 算法 的 伪 代 码 如 算法 6-3 所 示 。 


算法 6-3 DBSCAN ,一 种 基于 密度 的 聚 类 算法 
输入 : 
D: 包含 个 对 象 的 数据 集 
e: 半径 参数 
MinPts; 邻 域 密度 阔 值 
输出 : 基于 密度 的 簇 的 集合 
步骤 ， 
(1) 标记 所 有 对 象 为 unvisited; 
(2) do 
(3) 随机 选择 一 个 unvisited 对 象 ps 
(4) 标记 p H visited; 
(5) if p We WREDA MinPts 个 对 象 


(6) 创建 一 个 新 簇 C, 并 把 p RME C 

(7) 令 NN 为 p He 邻 域 中 的 对 象 的 集合 ; 

(8) for N 中 每 个 点 加 

(9) if p' JÈ unvisited 

ao) 标记 p'H visited; 

a1) if p' 的 e 邻 域 至 少 有 MinPts 个 点 ,把 这 些 点 添加 到 N; 
(12) if p' 还 不 是 任何 簇 的 成 员 , 把 p' 添 加 到 C; 

(13) end for 

(14) 输出 C; 


(15) else 标记 p 为 噪声 ; 
(16) until 没有 标记 为 unvisited 的 对 象 。 


DBSCAN 的 基本 时 间 复 杂 度 是 O(nX 找 出 Eps 邻 域 中 的 点 所 需要 的 时 间 ), 其 中 
是 点 的 个 数 。 在 最 坏 情况 下 ,时 间 复杂 度 是 O(022 ) 。 然 而 ,在 低 维 空间 ,有 一 些 数 据 结构 
如 kd 树 ,可 以 有 效 地 检索 特定 点 给 定 距离 内 的 所 有 点 ,时 间 复 杂 度 可 以 降低 到 
OCalogz) 。 即 使 对 于 高 维 数据 ,DBSCAN 的 空间 也 是 O(n) ,因为 对 每 个 点 , 它 只 需要 维 
持 少量 数据 , 即 复 标号 和 每 个 点 是 核心 点 .边界 点 还 是 噪声 点 的 标识 。 另 外 ,如 果 用 户 定 
义 的 参数 e 和 MinPts 设置 得 恰当 , 则 该 算法 可 以 有 效 地 发 现任 意 形状 的 簇 。 


202 RBRARE 


65 基于 概率 模型 的 聚 类 方法 


迄今 为 止 ,在 我 们 讨论 的 所 有 聚 类 分 析 方 法 中 ,每 个 数据 对 象 只 能 被 指派 到 多 个 簇 中 
的 一 个 。 这 种 簇 分 配 规则 在 某 些 应 用 中 是 必要 的 ,如 把 客户 分 配给 销售 经 理 。 然 而 ,在 其 
他 应 用 中 ,这 种 僵硬 的 要 求 可 能 并 非 我 们 期 望 的 ,正如 下 面 给 出 的 例子 所 示 。 

例 6-6 聚 类 产品 评论 。 

在 一 个 网 店 中 ,顾客 在 在 线 购物 的 同时 ,可 以 对 其 产品 发 表 评论 。 但 并 非 每 种 产品 都 
收 到 评论 ,而 且 某 些 产品 可 能 有 很 多 评论 ,而 其 他 一 些 没有 或 很 少 。 此 外 ,一 个 评论 可 能 
涉及 多 种 产品 。 这 样 , 作 为 一 名 评论 编辑 ,需要 对 这 些 评 论 进行 聚 类 。 

理想 情况 下 ,一 个 簇 集中 于 一 个 主题 ,例如 ,一 组 产品 服务 或 高 度 相关 的 问题 。 对 于 
评论 编辑 的 任务 而 言 , 把 评论 互 斥 地 指派 到 一 个 簇 效 果 并 不 好 。 假 设 关 于 照相 机 和 摄像 
机 有 一 个 化 ,关于 计算 机 有 另 一 个 徐 。 如 果 一 个 评论 谈论 到 摄像 机 与 计算 机 的 兼容 性 ,应 
该 怎么 指派 ? 该 评论 与 这 两 个 簇 都 相关 ,而 且 并 不 互 斥 地 属于 任何 一 个 簇 。 

此 时 需要 使 用 一 种 聚 类 方法 , 它 允 许 一 个 评论 属于 多 个 簇 ,如 果 该 评论 确 是 涉及 多 个 
主题 的 话 。 为 了 反映 一 个 评论 属于 某 个 簇 的 强度 ,可 以 在 评论 到 簇 的 指派 上 附加 一 个 代 
表 这 种 部 分 隶属 关系 的 权重 。 

本 节 系 统 地 研究 允许 一 个 对 象 属于 多 个 簇 的 聚 类 主题 。6. 5. 1 节 讨论 模糊 聚 类 ， 
6.5. 2 节 推广 到 基于 概率 模型 的 聚 类 ,6. 5. 3 节 介绍 期 望 极 大 化 算法 。 


6.5.1 模糊 聚 类 


如 果 数 据 对 象 分 布 在 明显 分 离 的 组 中 , 则 把 对 象 明确 划分 成 不 相交 的 簇 看 来 是 一 
种 理想 的 方法 。 然 而 ,在 大 部 分 情况 下 ,数据 集中 的 对 象 不 能 划分 成 明显 分 离 的 簇 , 指 
派 一 个 对 象 到 一 个 特定 的 簇 也 具有 一 定 的 任意 性 。 考 虑 一 个 靠近 两 个 徐 边 界 的 对 象 ， 
它 离 其 中 一 个 稍微 近 一 点 。 在 大 多 数 这 种 情况 下 ,下 面 的 做 法 更 合适 : 对 每 个 对 象 和 
每 个 簇 赋予 一 个 权 值 ,指明 该 对 象 属于 该 簇 的 程度 。 从 数学 上 讲 ,wj 是 对 象 x; 属于 簇 
C; 的 权 值 。 


1. 模糊 集合 


1965 年 ,Lotfi Zadeh 引进 模糊 集合 论 (fuzzy set theory) 和 模糊 逻辑 (fuzzy logic) 作 
为 一 种 处 理 不 精确 和 不 确定 性 的 方法 。 简 要 地 说 ,模糊 集合 论 允 许 对 象 以 0 和 1 之 间 的 
某 个 隶属 度 属 于 一 个 集合 ,而 模糊 逻辑 允许 一 个 陈述 以 0 和 1 之 间 的 确定 度 为 真 。 传 统 
的 集合 论 和 逻辑 是 对 应 的 模糊 集合 论 和 模糊 逻辑 的 特殊 情况 ,它们 限制 集合 的 隶属 度 或 
确定 度 或 者 为 0, 或 者 为 1。 模 糊 概 念 已 经 用 于 许多 不 同 的 领域 ,包括 控制 系统 、 模 式 识 别 
和 数据 分 析 ( 分 类 和 聚 类 ) 。 

考虑 如 下 模糊 逻辑 的 例子 。 陈 述 * 天 空 有 云 " 为 真 的 程度 可 以 定义 为 天 空 被 云 覆盖 的 
百分比 。 例 如 ,天 空 的 50%% 被 云 覆 盖 , 则 “天 空 多 云 ? 为 真 的 程度 是 0.5。 如 果 有 两 个 集合 
“多 云天 ”和 * 非 多 云天 ”, 则 可 以 类 似 地 赋予 每 一 天 隶属 于 这 两 个 集合 的 程度 。 这 样 , 如 果 
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一 天 25% 多 云 , 则 它 在 “多 云天 ”集合 中 具有 0.25 的 隶属 度 ,而 在 “ 非 多 云天 ”集合 中 具有 
0.75 的 隶属 度 。 


2. RE 


给 定 一 个 对 象 集 X= {zi ,zs，,… ,x,) ,模糊 集 S 是 X 的 一 个 子 集 , 它 允 许 X 中 的 每 
个 对 象 都 具有 一 个 属于 S 的 0 到 1 之 间 的 隶属 度 。 形 式 地 ,一 个 模糊 集 S 可 以 用 一 个 函 
数 下 ,:X-~[0,1] 建 模 。 

可 以 把 模糊 集 概念 用 在 聚 类 上 。 也 就 是 说 ,给 定 对 象 的 集合 ,一 个 簇 就 是 对 象 的 一 个 
模糊 集 。 这 种 簇 称 作 模 糊 徐 。 因 此 ,一 个 聚 类 包含 多 个 模糊 簇 。 

给 定 对 象 集 o ,os ,… ,0,,k 个 模糊 簇 Ci,C;,…,C 的 模糊 聚 类 可 以 用 一 个 隶属 矩阵 
U=[wy JOS ISjR RA. HEP wy 是 o 在 模糊 能 C 的 隶属 度 。 隶 属 矩 阵 应 该 
满足 以 下 3 个 要 求 : 

。 对 于 每 个 对 象 w AME Cj ,0 入 rw 和 1。 这 一 要 求 强制 模糊 徐 是 模糊 集 。 


。 对 于 每 个 对 象 ，> ) rw = 1. 这 一 要 求 确保 每 个 对 象 同等 地 参与 聚 类 。 


。 对 于 每 个 和 能 Cj , 0 到 ny, <n, RE BOR LRT FENIE, Se > A — 4 HE ,其 
隶属 值 非 零 。 
3. 模糊 CC 均值 


尽管 存在 多 种 模糊 聚 类 (事实 上 ,许多 数据 分 析 算法 都 可 以 “模糊 化 ") ,这 里 只 考虑 
k-means 的 模糊 版 本 , 称 作 模糊 “ 均值 。 模 糊 c 均值 算法 有 时 称 作 FCM, 如 算法 6-4 
所 示 。 


算法 6-4 模糊 c 均值 
输入 : 
k: EKA 
D: 包含 个 对 象 的 数据 集 
U=[w;]: 隶属 矩阵 
输出 :个 簇 的 集合 
FR: 
D ADHERE PRERIO 
(2) 用 值 在 0,1 之 间 的 随机 数 初始 化 隶属 矩阵 UU, 对 所 有 的 wy 赋值 ; 
(3) repeat 
(4) 根据 每 个 对 象 的 隶属 度 , 将 其 分 配 到 隶属 度 最 高 的 簇 ; 
(5) 更 新 每 个 簇 的 质心 ; 
(6) 重新 计算 隶属 矩阵 ; 
(7) until 不 再 发 生变 化 。 


初始 化 之 后 ,FCM 重复 地 计算 每 个 簇 的 质心 和 隶属 矩阵 ,直到 划分 不 再 改变 。FCM 
的 结构 类 似 于 k-means, k-means 在 初始 化 之 后 , 交 蔡 地 更 新 质心 和 指派 每 个 对 象 到 最 近 
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WR. + k-means 一 样 ,FCM 可 以 解释 为 试图 最 小 化 误差 的 平方 和 (SSE) ,尽管 FCM 是 
基于 SSE 的 模糊 版 本 。 事 实 上 ,k-means 可 以 看 作 FCM 的 特例 。FCM 的 细节 介绍 
如 下 。 
(1) 计算 SSE。 误 差 的 平方 和 (SSE)。 将 SSE 的 定义 修改 为 
k n 
SSE(C ,C2 ,°° ,C2) = >) >) wh dist (x; )? (6-6) 


j=l i=l 


其 中 ERARO. ,而 p Cp 1) HS hl BE. p 的 值 越 大 ,隶属 度 的 影响 
越 大 。 

(2) 初始 化 。 通 常 使 用 随机 初始 化 。 特 殊 地 , 权 值 随机 地 选取 ,同时 限定 与 任何 对 象 
相关 联 的 权 值 之 和 必须 等 于 1。 与 k-means 一 样 ,随机 初始 化 是 简单 的 ,但 是 常常 导致 聚 
类 结果 代表 SSE 的 局 部 最 小 。 

(3) 计算 质心 。 式 (6-7) 给 出 的 质心 定义 可 以 通过 发 现 最 小 化 公式 (6-6) 给 定 的 模糊 
SSE 的 质心 推导 出 来 。 对 于 簇 C ,对 应 的 质心 c; 由 下 式 定义 : 


G= 5 aiz wh (6-7) 

模糊 质心 的 定义 类 似 于 传统 的 质心 定义 ,不 同 之 处 在 于 所 有 点 都 要 考虑 ,并 且 每 个 点 
对 质心 的 贡献 要 根据 它 的 隶属 度 加 权 。 对 于 传统 的 明确 集合 ,所 有 的 w 或 者 为 0, 或 者 
为 1。 

如 果 所 选取 的 p 值 接近 1, 则 模糊 c 均值 的 行为 很 像 传统 的 k-means。 另 一 方面 , 随 
着 p 增 大 ,所 有 的 徐 质 心 都 趋向 于 所 有 数据 点 的 全 局 质心 。 换 言 之 , 随 着 p 增 大 ,划分 变 
得 越 来 越 模 糊 。 

(4) 更 新 隶属 矩阵 。 由 于 隶属 矩阵 有 权 值 定义 ,因此 这 一 步 涉及 更 新 与 第 ;个 点 和 
第 j 个 簇 相关 联 的 权 值 w; 。 式 (6-8) 给 出 的 权 值 更 新 公式 可 以 通过 限定 权 值 之 和 为 1 ,最 
小 化 式 (6-6) 中 的 SSE 导出 。 


k 
wy = (1/dist iepa D (1/dist (2; sc,)) 7 (6-8) 
q=1 


直观 地 来 看 , 权 值 wy 指明 点 x; EI C 中 的 隶属 度 。 如 果 zx; 靠近 质心 cj CdistCzi， 
cj) 比较 小 ), 则 wj 应 当 相 对 较 高 ;而 如 果 x; 远离 质心 cj Cdist (a; scj) WREAK) W wy 相对 
较 低 。 现 在 考虑 式 (6 一 8) 中 指数 1/(p 一 1) 的 影响 。 如 果 p 二 2, 则 该 指数 降低 赋予 离 点 
最 近 的 簇 的 权 值 。 事 实 上 , 随 着 p 趋向 于 无 穷 大 .该 指数 趋向 于 0, 而 权 值 趋向 于 1/k。 另 
一 方面 , 随 着 p 趋向 于 1, 该 指数 加 大 赋予 离 点 最 近 的 簇 的 权 值 。 随 着 p 趋向 于 1, 关于 最 
近 铸 的 隶属 权 值 趋 向 于 1, 而 关于 其 他 簇 的 隶属 权 值 趋向 于 0。 


6.5.2 基于 概率 模型 的 聚 类 


模糊 簇 提供 了 一 种 灵活 性 ,允许 一 个 对 象 属于 多 个 徐 。 有 没有 一 种 说 明 聚 类 的 一 般 
框架 ,其 中 对 象 可 以 用 概率 的 方法 参与 多 个 簇 ? 本 节 介 绍 基于 概率 模型 的 聚 类 的 一 般 概 
念 来 回答 这 一 问题 。 

之 所 以 在 数据 集 上 进行 聚 类 分 析 , 是 因为 假定 数据 集中 的 对 象 属于 不 同 的 固有 类 
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别 。 这 里 ,隐藏 在 数据 中 的 固有 类 别 是 潜在 的 ,因为 不 可 能 直接 观测 到 它们 ,而 必须 使 
用 观测 数据 来 推测 。 例 如 ,6.5 节 一 开始 提 到 的 网 店 评论 划分 问题 ,评论 集中 的 主题 是 
潜在 的 ,不 能 直接 地 了 解 到 一 个 评论 是 属于 哪 一 种 主题 。 然 而 ,可 以 从 评论 中 推导 出 
这 些 主 题 , 因 为 每 个 评论 都 是 关于 一 个 或 多 个 主题 的 。 因 此 , 聚 类 分 析 的 目标 是 发 现 
隐藏 的 类 别 。 

从 统计 学 讲 , 可 以 假定 隐藏 的 类 别 是 数据 空间 上 的 一 个 分 布 ,可 以 使 用 概率 密度 函数 
(或 分 布 函 数 ) 精 确 地 表示 。 这 种 隐藏 的 类 别称 为 概率 簇 (probabilistic cluster)。 对 于 一 
个 概率 得 C. 它 的 密度 函数 f 和 数据 空间 的 点 o,f(o) 是 C 的 一 个 实例 在 。 上 出 现 的 相对 
似 然 。 

假设 要 通过 聚 类 分 析 找 出 k 个 聚 类 簇 C1,C,,… ,Ci。 对 于 nn 个 对 象 的 数据 集 DD, 可 
以 把 DD 看 作 这 些 簇 的 可 能 实例 的 一 个 有 限 样本 。 从 概念 上 讲 , 可 以 假定 DD 按 如 下 方法 形 
成 。 每 个 簇 C; (1 二 j 二 8) 都 与 一 个 实例 从 该 簇 抽样 的 概率 zw 相关 联 。 通 常 假定 ws 





we ott ,tw 作为 问题 设置 的 一 部 分 给 定 ,并 且 2 wj = 1, 确保 所 有 对 象 都 被 & PH 
产生 。 

然后 ,运行 如 下 两 步 ,产生 D 的 一 个 对 象 。 这 两 个 步 综 总 共 执 行 n 次 ,产生 DD 的 个 
对 象 01 ,os ，*… ,0,。 


(1) 按照 概率 wi ,ws ,… ,wk 选择 一 个 艇 Ci 。 

(2) 按照 Ci 的 概率 密度 函数 方 选择 一 个 C; 的 实例 。 

该 数据 产生 过 程 是 混合 模型 的 基本 假定 。 混 合 模型 将 数据 看 作 从 不 同 的 概率 分 布 得 
到 的 观测 值 的 集合 。 概 率 分 布 可 以 是 任何 分 布 ,但 是 通常 是 多 元 正 态 的 ,因为 这 种 类 型 的 
分 布 已 被 人 们 完全 理解 ,容易 从 数学 上 进行 处 理 , 并 且 已 经 证 明 在 许多 情况 下 都 能 产生 好 
的 结果 。 

从 概念 上 讲 ,混合 模型 对 应 于 如 下 数据 产生 过 程 。 给 定 几 个 分 布 (通常 类 型 相同 但 
参数 不 同 ) ,随机 地 选取 一 个 分 布 并 由 它 产生 一 个 对 象 , 重 复 该 过 程 n 次 ,其 中 是 对 象 
的 个 数 。 

更 形式 化 地 ,假定 有 个 分 布 和 nn PIR XS {ar ,zx，… ,zx,}。 设 第 j 个 分 布 的 参数 
为 9; ,并 设 9 是 所 有 参数 的 集合 , 即 O= (0, .0,,…,0.}。 则 P(xzi19;) 是 第 i 个 对 象 来 自 第 
j 个 分 布 的 概率 。 选 取 第 j 个 分 布 产 生 一 个 对 象 的 概率 由 权 值 w;(1j 三 ) 给 定 , 其 中 权 


值 ( 概 率 ) 受 限于 其 和 为 1 的 约束 , 即 》) zw = 1。 于 是 ,对 象 zx 的 概率 由 式 (6-9) 给 出 : 
s 


k 
Pla | @) = >) wP; | 0) (6-9) 
j=1 


如 果 对 象 以 独立 的 方式 产生 , 则 整个 对 象 集 的 概率 是 每 个 个 体 对 象 x; 的 概率 的 
乘积 : 


ik 
P(X |@) = [J Pa: | @ = [] X wP; | a) (6-10) 
i=1 


i=1 j=1 
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对 于 混合 模型 BS ad AI A AE, BI — 4 AS TD GE. HE ETT IK. 
可 以 由 数据 估计 这 些 分 布 的 参数 ,从 而 描述 这 些 分 布 ( 簇 )。 也 可 以 识别 哪个 对 象 属于 哪 
个 徐 。 然 而 ,混合 建 模 并 不 产生 对 象 到 簇 的 明确 指派 ,而 是 给 出 具体 对 象 属于 特定 簇 的 

例 6-7 单 变量 的 高 斯 混合 模型 。 

用 高 斯 分 布 给 出 混合 模型 的 具体 解释 。 一 维 高 斯 分 布 在 点 zx 的 概率 密度 函数 是 


l aw? 
P(z; (8) = eat (6-11) 
V2no ” 








该 高 斯 分 布 的 参数 是 0= (u0) ,其 中 jy 是 分 布 的 均值 ,而 o 是 标准 差 。 假 定 有 两 个 高 斯 分 

布 ,具有 共同 的 标准 差 2, 均 值 分 别 为 一 4 和 4。 还 假定 每 个 分 布 以 等 概率 选取 , 即 wi = 

wz 一 0.5。 于 是 式 (6-9) 变 成 
P(x | 9) = 


(ty)? i) 
1 stot 1 


2 Jim iim oo 
图 6-18 Sb aR EHR POL EB Ts EE A ERRE 
的 聚 关 分 析 任务 是 排 断 9, 使 得 式 (6-12) 最 大 化 。 
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6-18 混合 模型 的 概率 密度 函数 


6.5.3 期 望 最 大 化 算法 


如 何 计算 模糊 聚 类 和 基于 概率 模型 的 聚 类 ? 本 节 介 绍 一 种 原理 性 方法 。 

k-means 聚 类 可 以 看 作 是 模糊 聚 类 的 一 种 特例 ,k-means 算法 迭代 执行 直到 不 能 再 改 
进 聚 类 。 每 次 迭代 包括 两 个 步骤 : 

(1) 期 望 步 (E- 步 )。 给 定 当前 的 簇 中 心 ,每 个 对 象 都 被 指派 到 簇 中 心 离 该 对 象 最 近 
HE. RE ,期望 每 个 对 象 都 属于 最 近 的 簇 。 
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(2) RAEE M-F). MERTI X TENE ,算法 调整 其 中 心 EAT UR BAR 
的 对 象 到 该 新 中 心 的 距离 之 和 最 小 化 。 也 就 是 说 ,将 指派 到 一 个 簇 的 对 象 的 相似 度 最 
大 化 。 

可 以 推广 这 两 步 过 程 来 处 理 模糊 聚 类 和 基于 概率 模型 的 聚 类 。 一 般 而 言 , 期 望 -最 大 
化 (Expectation-Maximization,EM) 算 法 是 一 种 框架 , 它 允 近 统 计 模 型 参数 的 最 大 似 然 或 
最 大 后 验 估计 。 在 模糊 或 基于 概率 模型 的 聚 类 的 情况 下 ,EM 算法 从 初始 参数 集 出 发 ,并 
且 和 迭代 直到 不 能 改善 聚 类 , 即 直到 聚 类 收敛 或 改变 充分 小 (小 于 一 个 预先 设 定 的 阔 值 ) 。 
每 次 迭代 也 由 两 步 组 成 : 

(1) 期 望 步 根据 当前 的 模糊 聚 类 或 概率 簇 的 参数 把 对 象 指派 到 簇 中 。 

(2) 最 大 化 步 发 现 新 的 聚 类 或 参数 ,最 大 化 模糊 聚 类 的 SSE 或 基于 概率 模型 的 聚 类 
的 期 望 似 然 。 

例 6-8 EM 算法 的 简单 例子 。 

这 个 例子 解释 EM 算法 用 于 图 6-18 的 数据 时 如 何 执 行 。 为 了 使 这 个 例子 尽 可 能 简 
Y ,假定 已 知 两 个 分 布 的 标准 差 都 是 2.0, 并 且 点 以 相等 的 概率 由 两 个 分 布 产生 。 把 左边 
和 右边 的 分 布 分 别称 作 分 布 1 和 分 布 2。 

从 对 jn 和 /me 的 初始 猜测 开始 EM 算法 ,例如 , 取 yu 二 一 2,y 二 3。 这 样 ,对 于 两 个 分 
布 ,初始 参数 9 二 (jy.,0) 分 别 是 0 二 (一 2,2) 和 二 (3,2)。 整 个 混合 模型 的 参数 集 是 O= 
{01,0,}。 对 于 EM 的 期 望 步 ,要 计算 某 个 点 取 自 一 个 特定 分 布 的 概率 , 即 , 要 计算 已 (分 
布 1|zxi,8) 和 PC 分布 21x;,8@)。 这 些 值 可 以 用 下 式 表示 , 它 是 贝 叶 斯 规则 的 直接 应 用 。 


oo 0.5P (a; | 0) 
P( 分 布 j | 2+) 一 SEC Tay + 0.5PGa 1G) 


其 中 ,0.5 是 每 个 分 布 的 概率 ( 权 ), 而 j 是 1 或 2。 

例如 ,假定 其 中 一 个 点 是 0。 计 算 P(010,) 二 0.12,P(010,) 二 0.06( 实 际 计算 的 是 概 
率 密度 )。 使 用 这 些 值 和 式 (6-13) ,发现 PCS 110.0)=0. 12/(0. 12 十 0. 06) =0. 66, 
P( 分 布 210,8) 二 0.06/(0.12 十 0.06) 二 0.33。 根 据 对 参数 值 的 当前 假设 ,这 意味 着 点 0 
属于 分 布 1 的 可 能 性 是 属于 分 布 2 的 可 能 性 的 两 倍 。 

计算 了 20 000 个 点 的 得 隶属 概率 之 后 ,在 EM 算法 的 最 大 化 步 计算 pa 和 yo 的 新 的 
估计 (使 用 式 (6-14) 和 式 (6-15))。 注 意 ,分 布 的 均值 的 新 的 估计 是 点 的 加 权 平均 ,其 中 
权 值 是 点 属于 该 分 布 的 概率 , 即 值 P( 分 布 j|z;)。 


20 000 
P p> „LOM | 21-8) rere 


YS) PON 1 | x0) 


20 000 





(6-13) 











PG 2 | 2;.@) 
#2 2 Ti 20000 分 布 2 1 (6-15) 


tS) PGP 2 | 2-0) 
i=1 
重复 这 两 步 ,直到 yy 和 /ms 的 估计 不 再 改变 或 变化 很 小 。 表 6-2 显示 EM 算法 用 于 
20 000 个 点 的 集合 的 前 几 次 迭代 。 对 于 该 数据 ,我 们 知道 哪个 分 布 产 生 哪些 点 ,因此 也 
可 以 由 每 个 分 布 计算 均值 。 这 些 均值 是 py = 3. 98 和 /一 4.03。 
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表 6-2 简单 例子 EM 算法 的 前 几 次 迭代 
迭代 pa pe 选 代 m Ha 
0 一 2.00 3.00 3 =3. 97 4.04 











1 —3.74 4.10 4 —3.98 4. 03 





2 一 3.94 4.07 5 —3. 98 4. 03 























在 许多 应 用 中 ,基于 概率 模型 的 聚 类 已 经 表现 出 很 好 的 效果 ,因为 它 比划 分 方法 和 模 
糊 聚 类 方法 更 通用 。 它 的 一 个 突出 优点 是 使 用 合适 的 统计 模型 以 捕获 潜在 的 艇 。EM 算 
法 因 其 简洁 性 ,已 经 广泛 用 来 处 理 数 据 挖掘 和 统计 学 的 许多 学 习 问题 。 注 意 ,一 般 而 言 ， 
EM 算法 可 能 不 会 收敛 到 最 优 解 ,而 是 可 能 收敛 于 局 部 最 大 。 研 究 者 已 经 考察 了 许多 避 
免 收 敛 于 局 部 极 大 的 启发 式 方法 。 例 如 ,可 以 使 用 不 同 的 随机 初始 值 多 次 运行 EM 过 
程 。 此 外 ,如 果 分 布 很 多 或 数据 集 只 包含 很 少 观测 数据 点 , 则 EM 算法 的 计算 开销 可 能 
很 大 。 
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到 目前 为 止 , 我 们 已 经 学 习 了 什么 是 聚 类 ,并 且 已 经 认识 了 一 些 常 见 的 聚 类 方法 。 你 
可 能 会 问 :“ 当 我 们 在 数据 集 上 使 用 一 种 聚 类 方法 时 ,如 何 评估 聚 类 的 结果 是 否 好 ?一 般 
而 言 , 聚 类 评估 用 于 对 在 数据 集 上 进行 聚 类 的 可 行 性 和 被 聚 类 方法 产生 的 结果 的 质量 进 
行 评 估 。 聚 类 评估 主要 包括 以 下 任务 : 
。 估计 聚 类 趋势 。 在 这 项 任务 中 ,对 于 给 定 的 数据 集 ,评估 该 数据 集 是 否 存在 非 随 
机 结构 。 如 果 育 目地 在 数据 集 上 使 用 聚 类 方法 返回 一 些 簇 ,所 挖掘 的 簇 可 能 是 误 
导 。 数 据 集 上 的 聚 类 分 析 仅 当 数据 中 存在 非 随 机 结构 时 才 是 有 意义 的 。 
。 确定 数据 集中 的 簇 数 。 一 些 诸如 k-means 这 样 的 算法 需要 数据 集 的 复数 作为 参 
数 。 此 外 ,复数 可 以 看 作 数据 集 的 有 趣 并 且 重 要 的 概括 统计 量 。 因 此 ,在 使 用 聚 
类 算法 导出 详细 的 篮 之 前 ,估计 簇 数 是 可 取 的 。 
”测定 聚 类 质量 。 在 数据 集 上 使 用 聚 类 方法 之 后 , 想 要 评估 结果 簇 的 质量 ,许多 度 
量 都 可 以 使 用 。 有 些 方法 测定 簇 对 数据 的 拟 合 程度 ,而 其 他 方法 测定 簇 与 基准 匹 
配 的 程度 ,如 果 这 种 基准 存在 的 话 。 还 有 一 些 方法 对 聚 类 打分 ,因此 可 以 比较 相 
同 数据 集 上 的 两 组 聚 类 结果 。 


6.6.1 聚 类 趋势 的 估计 


聚 类 趋势 评估 确定 给 定 的 数据 集 是 否 具有 可 以 导致 有 意义 的 聚 类 的 非 随机 结构 。 考 
虑 一 个 没有 任何 非 随 机 结构 的 数据 集 ,如 图 6-19 中 数据 空间 中 均匀 分 布 的 点 。 尽 管 聚 类 
算法 可 以 为 该 数据 集 返 回 簇 ,但 是 这 些 簇 是 随机 的 ,没有 任何 意义 。 

为 了 处 理 这 样 的 问题 ,可 以 使 用 多 种 算法 来 评估 结果 簇 的 质量 。 如 果 簇 都 很 差 , 则 可 
能 表明 数据 中 确实 没有 簇 。 

换 一 种 方式 ,可 以 关注 聚 类 趋势 度量 , 即 试图 评估 数据 集中 是 否 包含 簇 ,而 不 进行 聚 
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图 6-19 一 个 在 数据 空间 均匀 分 布 的 数据 集 


类 。 最 常用 的 方法 (特别 是 对 于 欧 几 里 得 空间 数据 ) 是 使 用 统计 检验 来 检验 空间 随机 性 。 
然而 ,选择 正确 的 模型 ,估计 参数 ,评估 数据 是 非 随机 的 假设 的 统计 数据 ,这 一 切 可 能 非常 
具有 挑战 性 。 尽 管 如 此 ,人 们 已 经 开发 了 许多 方法 .其 中 大 部 分 都 是 针对 低 维 欧 几 里 得 空 
间 中 的 点 。 为 了 解释 这 一 思想 ,下 面 考察 一 种 简单 但 有 效 的 统计 量 一 一 霍 普 金 斯 统计 量 。 
霍 普 金 斯 统计 量 (Hopkins Statistic) 是 一 种 空间 统计 量 ,检验 空间 分 布 的 变量 的 空间 
随机 性 。 给 定数 据 集 DD, 它 可 以 看 作 随 机 变量 o 的 一 个 样本 ,我 们 想 要 确定 o 在 多 大 程度 
上 不 同 于 数据 空间 中 的 均匀 分 布 。 可 以 按 以 下 步骤 计算 霍 普 金 斯 统计 量 : 
(1) 从 万 的 空间 中 随机 产生 ?个 点 pis Poets Pao DREW, D 的 空间 中 的 每 个 点 
都 以 相同 的 概率 包含 在 这 个 样本 中 。 对 于 每 个 点 pAn) RA p; 在 D 中 的 最 近 
邻 ,并 令 zi 为 p; SEED 中 的 最 近邻 之 间 的 距离 , 即 
z= min{dist(p;»v) } (6-16) 
(2) 均匀 地 从 D 中 抽取 PR qg, MEF RET gain), HRI g; 在 
D 一 {gq;} 中 的 最 近邻 ,并 令 y; Ag: 与 它 在 D 一 {gq;} 中 的 最 近邻 之 间 的 距离 , 即 
yi = 下 (6-17) 


(3) 计算 霍 普 金 斯 统计 量 互 : 


H = 全 一 -一 (6-18) 


如 果 D 是 均匀 分 布 的 ， mh >) 2, ALS) > 将 全 很 接近 ,因为 H KAH 0.5. H 值 接 


近 0 或 1 分别 表明 数据 是 高 度 聚 类 的 和 数据 在 数据 空间 是 有 规律 分 布 的 。 为 了 举例 说 
明 , 对 于 p= 二 20 和 100 的 不 同 实验 ,计算 了 图 6-19 中 数据 的 霍 普 金 斯 统计 量 。 互 的 平均 
值 为 0. 56 ,标准 差 为 0.03。 

原 假设 是 同 质 假设 . 即 D 是 均匀 分 布 的 ,因而 不 包含 有 意义 的 徐 。 非 均匀 假设 ( 即 D 
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不 是 均匀 分 布 的 ,因而 包含 簇 ) 是 备 择 假 设 。 可 以 和 迭代 地 进行 霍 普 金 斯 统计 量 检验 ,使 用 
0.5 作为 拒绝 备 择 假 设 阔 值 , 即 如 果 0.5. D 不 大 可 能 具有 统计 显著 的 簇 。 


6.6.2 FRB TIE 


HA E AC E P“ E MA A ROE EE HY, ALE H AR k-means 这 个 的 聚 类 算法 需要 这 
个 参数 ,而 且 因为 合适 的 簇 数 可 以 控制 适当 的 聚 类 分 析 粒 度 。 这 可 以 看 作 在 聚 类 分 析 的 
可 压缩 性 与 准确 性 之 间 寻 找 好 的 平衡 点 。 考 虑 两 种 极端 情况 ,如 果 把 整个 数据 集 看 作 一 
个 簇 会 怎么 样 ? 这 将 最 大 化 数据 的 压缩 ,但 是 这 种 聚 类 分 析 没 有 任何 价值 。 另 一 方面 ,把 
数据 集 的 每 个 对 象 看 作 一 个 簇 将 产生 最 细 的 聚 类 ( 即 最 准确 的 解 , 由 于 对 象 到 其 对 应 的 簇 
中 心 的 距离 都 为 0) 。 在 像 人 -means 这 样 的 算法 中 ,这 甚至 实现 了 开销 最 小 。 然 而 ,每 个 
徐 一 个 对 象 并 不 提供 任何 数据 概括 。 

确定 簇 数 并 非 易 事 ,因为 “正确 的 " 簇 数 常常 是 含糊 不 清 的 。 通 常 . 找 出 正确 的 簇 数 依 
赖 于 数据 集 分 布 的 形状 和 尺度 ,也 依赖 于 用 户 要 求 的 聚 类 分 辨 率 。 有 许多 估计 入 数 的 可 
能 方法 。 这 里 ,简略 介绍 几 种 简单 但 流行 和 有 效 的 方法 。 


一 种 简单 的 经 验方 法 是 ,对 于 个 点 的 数据 集 ,设置 禾 数 .大 约 为 ,| 号 。 在 期 望 情况 


下 ,每 个 簇 大 约 有 V2n 个 点 。 

拐点 法 (elbow method) 基 于 如 下 观察 : 增加 簇 数 有 助 于 降低 每 个 簇 的 簇 内 方差 之 
和 。 这 是 因为 有 更 多 的 簇 可 以 捕获 更 细 的 数据 对 象 徐 , 簇 中 对 象 之 间 更 为 相似 。 然 而 ,如 
果 形 成 太 多 的 簇 , 则 降低 簇 内 方差 和 的 边缘 效应 可 能 下 降 , 因 为 把 一 个 凝聚 的 簇 分 裂 成 两 
个 禾 只 能 使 簇 内 方差 和 的 稍微 降低 。 因 此 ,一 种 选择 正确 的 簇 数 启发 式 方法 是 使 用 簇 内 
方差 和 关于 簇 数 的 曲线 的 拐点 。 

例 6-9 HENAN. 

假设 一 个 数据 集 有 10 MARI, E 6-20 显示 了 该 数据 集 的 k-means FRA KHL AY HE 
数 的 SSE 曲线 ,而 图 6-21 显示 了 相同 数据 的 复数 的 平均 轮廓 系数 曲线 。 当 复数 等 于 10 
时 ,SSE 有 一 个 明显 的 拐点 ,而 轮廓 系数 有 一 个 明显 的 尖峰 。 

当然 ,这 种 方法 并 不 总 是 有 效 的 ,有 时 簇 可 能 盘 绕 或 交 释 得 比较 厉害 。 此 外 ,数据 中 
tH HY FE GL HRS BY HE 

更 高 级 的 方法 是 使 用 信息 准则 或 信息 论 的 方法 确定 徐 数 。 更 多 资料 请 参阅 本 章 的 参 
考 文献 (6. 10 节 ) 。 

数据 集中 * 正 确 的 ”复数 还 可 以 通过 交叉 验证 确定 。 交 叉 验 证 是 一 种 常用 于 分 类 的 技 
术 。 首 先 , 把 给 定 的 数据 集 D 划分 成 m 个 部 分 。 然 后 ,使 用 疡 一 1 个 部 分 建立 一 个 聚 类 
模型 ,并 使 用 剩 下 的 一 部 分 检验 聚 类 的 质量 。 例 如 ,对 于 检验 集中 的 每 个 点 ,可 以 找 出 最 
近 的 质心 。 因 此 ,可 以 使 用 检验 集中 的 所 有 点 与 它们 的 最 近 形 心 之 间 的 距离 的 平方 和 来 
度量 聚 类 模型 拟 合 检验 集 的 程度 。 对 于 任意 整数 二 0, 依 次 使 用 每 一 部 分 作为 检验 集 ， 
重复 以 上 过 程 m 次 ,导出 个 簇 的 聚 类 。 取 质量 度量 的 平均 值 作 为 总 体质 量度 量 。 然 
后 ,对 不 同 的 & 值 ,比较 总 体质 量度 量 , 并 选取 最 佳 拟 合 数 据 的 簇 数 。 
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图 6-20 10^ Á PRR SE AY SSE 曲线 


图 6-21 10 个 自然 入 数据 集 的 平均 轮廓 系数 曲线 


6.6.3. 聚 类 质量 的 测定 


当 得 到 有 关于 数据 的 外 部 信息 (通常 是 从 外 部 导出 的 数据 对 象 的 类 标号 形式 ) 时 ,在 
这 种 情况 下 ,惯常 的 做 法 是 度量 簇 标号 与 类 标号 的 对 应 程度 。 但 是 ,这 样 做 的 目的 是 什 
么 ? 归根 结 底 , 如 果 有 了 类 标号 ,进行 聚 类 分 析 的 目的 何在 ? 这 种 分 析 的 动机 是 比较 聚 类 
技术 与 “基本 事实 ,或 评估 人 工分 类 过 程 可 以 在 多 大 程度 上 被 聚 类 分 析 自 动 地 实现 。 
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一 般 而 言 , 根 据 是 否 有 基准 (基准 是 一 种 理想 的 聚 类 ,通常 由 专家 构建 ) 可 用 ,可 以 有 
两 类 不 同 的 聚 类 质量 测定 方法 。 如 果 有 可 用 的 基准 , 则 可 以 使 用 外 在 方法 (extrinsic 
method) ,外 在 方法 比较 聚 类 结果 和 基准 。 如 果 没 有 基准 可 用 , 则 可 以 使 用 内 在 方法 
Cintrinsic method) ,通过 考虑 簇 的 分 离 情 况 评估 聚 类 的 好 坏 。 基 准 可 以 看 作 一 种 “ 簇 标 
号 ”形式 的 监督 。 因 此 ,外 在 方法 又 称 监督 方法 ,而 内 在 方法 是 无 监督 方法 。 


1. 外 在 方法 


有 许多 度量 (如 焙 .纯度 、 精 度 、 召 回 率 和 下 度量 ) 普 遍 用 来 评估 分 类 模型 的 性 能 。 对 

于 分 类 ,度量 预测 的 类 标号 与 实际 类 标号 的 对 应 程度 ,但 是 对 于 上 面 提 到 的 度量 ,通过 使 
用 簇 标 号 而 不 是 预测 的 类 标号 ,不 需要 做 重大 改变 。 下 面 简 略 地 介绍 这 些 度 量 的 定义 。 

。 焙 。 每 个 簇 由 单个 类 的 对 象 组 成 的 程度 。 对 于 每 个 簇 ,首先 计算 数据 的 类 分 布 ， 

BIXI FIR i HILIR i 的 成 员 属 于 类 j 的 概率 pj 二 mi /mi, 其 中 以 ; ERI 中 对 象 的 

个 数 , 而 ms FERRE EPR 的 对 象 个 数 。 使 用 类 分 布 , 用 标准 公式 e = 


L 
一 Dd) pslogsps HAA ME FAIRE. HER L ERAR EEA HH TD PE 


K 
AOR ANAL ATHY. Be = >) Miess 其 中 开 EAR T m 是 数据 点 的 总 数 。 
纯度 。 乱 包含 单个 类 的 对 象 的 另 一 种 度量 程度 。 使 用 前 面 的 术语 , 簇 i 的 纯度 是 
K 
p:=maxp; ,而 聚 类 的 总 纯度 是 purity = D mip. 


。 HE. REPT ERNMA IT TAY. Ei RPAH j 的 精度 是 precision(i， 
D= pie 
召回 率 。 乱 包含 一 个 特定 类 的 所 有 对 象 的 程度 。 秘 i 关于 类 j 的 召回 率 是 recall. 
D=m;/m ,其 中 m 是 类 j 的 对 象 个 数 。 
下 度量 。 精 度 和 召回 率 的 组 合 , 度 量 在 多 大 程度 上 簇 只 包含 一 个 特定 类 的 对 象 和 
包含 该 类 的 所 有 对 象 。 徐 i 关于 类 j 的 下 度量 是 
FG,j) = (2 X precision(i,j) X recall(i,j))/(precision(@,j) + recall(i,7)) 
例 6-10 监督 评估 度量 。 
下 面 提供 一 个 例子 解释 这 些 度量 。 具 体 地 说 ,以 余弦 相似 性 度量 使 用 Ameans, 对 取 
自 《洛杉矶 时 报 ) 的 3204 篇 报道 文章 进行 聚 类 。 这 些 文章 取 自 6 个 不 同 的 类 : 娱乐 、 财 
经 .国外 、 国 内、 都 市 和 体育 。 表 6-3 显示 了 k-means 聚 类 发 现 6 个 簇 的 结果 。 第 一 列 指 
示 簇 , 接 下 来 的 6 列 形成 混淆 矩阵 , 则 这 些 列 指出 每 个 类 的 文档 在 这 些 复 中 如 何 分 布 。 最 
后 两 列 分 别 是 烤 和 纯度 。 


表 6-3 《洛杉矶 时 报 ) 文 档 数据 集 k-means 聚 类 结果 














ik 娱乐 财经 国外 国内 都 市 体育 Hi 纯度 
1 3 5 40 96 506 27 1.2270 | 0.7474 
2 4 7 280 39 29 2 1.1472 | 0.7756 





























Ah Bi Rw A 




















BR 
簇 娱乐 财经 国外 国内 都 市 体育 w 纯度 
3 1 1 1 4 7 671 0.1813 | 0.9796 
4 10 162 3 73 119 2 1.7487 | 0.4390 
5 331 22 5 13 70 23 1.3976 | 0.7134 
6 5 358 12 48 212 13 1.5523 | 0.5525 
合计 354 555 341 273 943 738 1.1450 | 0.7203 





























理想 情况 下 ,每 个 簇 仅 包 含 来 自 一 个 类 的 文档 。 事 实 上 ,每 个 复 包 含 来 自 多 个 类 的 文 
档 。 尽 管 如 果 ,许多 簇 包含 的 文档 主要 来 自 一 个 类 。 具 体 地 说 ,得 3 包含 的 文档 大 部 分 来 
自体 育 版 ,纯度 和 炉 都 异常 好 。 其 他 簇 的 纯度 和 粹 没有 这 么 好 ,但 是 如 果 数 据 被 划分 到 更 
多 的 簇 , 则 得 的 纯度 和 焙 可 能 大 幅度 提高 。 

可 以 对 每 个 簇 计算 精度 、 召 回 率 和 下 度量 。 为 了 给 出 一 个 具体 的 例子 ,考虑 表 6-3 
AYE 1 和 都 市 类 。 精 度 是 506/677 二 0.75, 召 回 率 是 506/943 二 0. 26, 正 值 是 0.39。 相 比 
ZF i 3 和 体育 的 下 值 是 0. 94, 


2. 内 在 方法 


当 没 有 数据 集 的 基准 可 用 时 ,必须 使 用 内 在 方法 来 评估 聚 类 的 质量 。 一 般 而 言 ,内 在 
方法 通过 考察 复 的 分 离 情况 和 簇 的 紧凑 情况 来 评估 聚 类 。 许 多 内 在 方法 都 利用 数据 集 的 
对 象 之 间 的 相似 性 度量 。 

轮廓 系数 (silhouette coefficient) 就 是 这 种 度量 。 对 于 ) 个 对 象 的 数据 集 也 ,假设 D 
被 划分 成 & PIE Ci,C;,… ,Cs。 对 于 每 个 对 象 。ED, 计 算 o 与 其 所 属 的 簇 的 其 他 对 象 之 
间 的 平均 距离 a(o)。 类 似 地 ,6b(o) 是 o 到 不 属于 o 的 所 有 簇 的 最 小 平均 距离 。 假 设 o€ C, 
(<i<k), 则 


py dist(o.o’) 
alo) = ag — (6-19) 
而 
> dist(o.0’) 
本 o ECi x 
blo) = oai ad er (6-20) 
WR o 的 轮廓 系数 定义 为 
s(o) 一 __6(0) ~ alo) _ (6-21) 


max{a(o) .b(o) } 
轮廓 系数 的 值 在 一 1 和 1 之 间 。a(o) 的 值 反映 o TUR HY HRY REE, AAA) BE 
MAR. OOO) MAMA o 与 其 他 簇 的 分 离 程度 。b(o) 的 值 越 大 ,o 与 其 他 簇 越 分 离 。 因 
Ie. H o 的 轮廓 系数 值 接近 1 时 ,包含 o 的 簇 是 紧凑 的 ,并 且 o 远离 其 他 得 ,这 是 一 种 可 取 
的 情况 。 然 而 , 当 轮 廓 系数 的 值 为 负 时 ( 即 5(o) 二 a(o)), 这 意味 着 在 期 望 情况 下 ,o 距离 
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避免 。 

为 了 度量 聚 类 中 的 得 的 拟 合 性 ,可 以 计算 簇 中 所 有 对 象 的 轮廓 系数 的 平均 值 。 为 了 
度量 聚 类 的 质量 ,可 以 使 用 数据 集中 所 有 对 象 的 轮廓 系数 的 平均 值 。 通 过 启发 式 地 导出 
数据 集 的 簇 数 取 代 徐 内 方差 之 和 ,轮廓 系数 和 其 他 内 在 度量 也 可 以 用 在 拐点 法 中 。 
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联合 国 统计 委员 会 每 年 都 要 统计 全 世界 各 个 国家 的 人 口 出 生 和 死亡 情况 ,并 给 出 人 
口 统计 年 鉴 用 以 分 析 人 口 趋势 以 及 人 口 变动 反映 出 的 地 区 发 展 情况 。 研 究 发 现 , 不 同 出 
生 率 和 死亡 率 的 国家 或 地 区 往往 是 呈现 地 域 分 布 的 ,人 口 出 生 率 和 死亡 率 与 该 地 域 的 发 
展 有 着 密切 关系 。 从 出 生 率 的 分 布 可 以 看 出 一 个 国家 的 经 济 状况 和 文化 状况 ,从 死亡 率 
的 分 布 则 可 以 折射 出 一 个 国家 的 营养 卫生 条 件 或 其 他 社会 性 原因 。 

接 下 来 ,应 用 Python 平台 ,以 各 国家 的 人 口 变动 情况 为 背景 ,对 不 同 国家 的 出 生 率 
和 死亡 率 情况 进行 k-means 聚 类 ,希望 能 挖掘 出 其 背后 隐藏 的 信息 。 


6.7.1 数据 准备 


现在 ,假如 联合 国 统计 委员 会 调查 了 215 个 国家 的 人 口 出 生 和 死亡 情况 ,数据 集 命名 
为 birth-death-rates。 每 个 国家 分 别 作为 一 个 样本 数据 占据 数据 集 的 一 行 ,总 共有 215 
行 ,其 中 每 条 数据 主要 包含 了 以 下 3 种 特征 : 

。 国家 的 名 称 。 

。 年 平均 出 生 率 。 

。 年 平均 死亡 率 。 

K 6-4 给 出 了 前 9 个 国家 的 年 平均 出 生 率 和 死亡 率 。 

表 6-4 各 国 出 生 率 和 死亡 率 数据 集 


Country birth-rates death-rates 



































Afghanistan 39.3 14.59 
Albania 12.38 6.25 
Algeria 24.4 4.3 
American Samoa 22.9 4.6 
Andorra 9. 26 6.52 
Angola 39. 36 12. 06 
Anguilla 12.9 4.41 
Antigua and Barbuda 16.19 5.72 
Argentina 17.34 7.36 
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接受 的 格式 ,删除 不 需要 的 特征 。 首 先 ,只 取 数 据 集 中 的 birth-rates 和 death-rates 两 个 
特征 ,而 Country 特征 则 标识 为 每 条 数据 的 标号 ,并 不 参与 聚 类 过 程 。 然 后 ,用 Python 命 
令 加 载 数据 集 ,如 图 6-22 所 示 。 





# 导 入 数据 集 
df=pd.read csv('birth-Death-rates.csv') 
data=df .values[:，1:] .tolist ()# 过 滤 前 两 列 


for i in range(len(data)): 
for j in range(len(data[0])): 
if type(data[i][j]) is types.LongType: 
data[i] [j]=float (data[i] [j]) 











图 6-22 导入 数据 集 命令 


6.7.2 聚 类 分 析 结 果 探 讨 

现在 ,有 一 个 符合 标准 的 出 生 率 、 死 亡 率 情况 列表 存储 在 birth-death-rates. csv 中 。 
接 下 来 ,就 开始 通过 k-means 聚 类 系统 对 这 些 国 家 进行 聚 类 分 析 。 

首先 ,需要 制作 原始 数据 的 散 点 图 ,如 图 6-23 所 示 。 























20 
15 e|. 
2 ° : ee 
5 
0 
0 10 20 30 40 50 
图 6-23 不 同 国家 年 平均 出 生 率 和 死亡 率 分 布 情况 
散 点 图 的 横 坐标 和 纵 坐 标 分 别 表示 特征 值 birth-rates | 74 Kmeanshz lela je 
和 death-rates, 从 图 中 也 可 看 出 数据 的 大 致 分 布 情况 。 samme: birth-death-rates.csy 


在 系统 初始 界面 中 ,需要 确定 需要 的 特征 个 数 以 及 | sme 上 
对 象 个 数 。 在 这 里 ,只 考虑 birth-rates 和 death-rates 两 = 














个 特征 ,选取 215 个 国家 作为 聚 类 对 象 , 如 图 624 [Z | 
所 示 。 图 6-24 k-means 系统 的 初始 界面 
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单 击 “ 开 始 聚 类 ?按钮 开始 聚 类 过 程 , 聚 类 过 程 的 程序 如 图 6-25 所 示 。 





# 聚 类 过 程 
def kmenans (dataset, randomArr, n): 
#param dataset: 所 有 样本 集合 
#param randomArr: 随 机 样本 
#param n: 划 分 为 n 个 簇 
newsortArr=sort (dataset, randomArr, n) 
newRandomArr=[] 
if len (newRandomArr) ==0: 
newRandomArr=randomArr 
else: 
for i in range(len(newsortArr) ): 
randomArr [i]=pointCenter (newsortArr[i]) 
while randomArr!=newRandomArr: 
newRandomArr=randomArr 
newsortArr=sort (dataset, newRandomArr, n) 
return newsortArr 


#return: USTED HRA 








图 6-25 RAS RB 


图 6-25 所 示 程 序 清单 包含 了 k-means 聚 类 的 基本 过 程 , 其 中 randomArray 函数 返回 
随机 样本 ,sort 函数 对 数据 对 象 进行 类 簇 划分 。 
下 面 看 一 下 实际 效果 ,在 Python 提示 符 下 输入 如 图 6-26 所 示 的 程序 。 





# 实 现 可 视 化 
if__name__=="__main 
startTime=time.clock() 
df=pd. read_csv('birthdeathrates.csv' 
data=df.values[:，1:]) .tolist()# 过 滤 前 两 列 
for in in range(len(data)): 
for j in range(len(data[0])): 
if type(data[i][j]) is types.Long fype: 
data[i] [j]=float (data[i][j]) 








#k 取 3k=3 
randomArr=randomArray (data, k) 
res=kmeans (data, randomArr, k) 
s=0.0 
print (res) 
for i in range(len(res)): 
st+=classInnerDis(res[i]) 
sres=classInnerDis (data) 
endTime=time.clock() 
plt.scatter(*zip(*res[0]), c='b') 
plt.scatter(*zip(*res[1]), c='r') 
plt.scatter(*zip(*res[2]), c='g') 
plt.show() 











6-26 可视化 程序 清单 


如 图 6-27 所 示 ,根据 数据 点 的 分 布 ,大 致 可 将 这 215 个 国家 划分 为 3 个 区 域 。 从 图 
中 可 以 大 致 看 出 ,红色 区 域 的 国家 表现 为 出 生 率 低 、 死 亡 率 高 ,其 中 包括 典型 的 “少数 民 
族 ” 国 家 一 一 俄罗斯 ;绿色 区 域 的 国家 则 是 出 生 率 低 、 死 亡 率 低 ,这 部 分 国家 主要 集中 在 欧 
洲 , 包 括 德国 .丹麦 .瑞典 等 国家 ; 相 比 而 言 , 蓝 色 区 域 的 国家 出 生 率 和 死亡 率 都 偏 高 ,这 些 
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国家 依然 大 都 出 现在 非洲 。 
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红色 区 域 ， * 绿色 区 域 
SS 
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6-27 对 215 个 国家 的 人 口 出 生死 亡 情况 的 聚 类 结果 
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簇 是 数据 对 象 的 集合 ,同一 个 复 中 的 对 象 彼此 相似 ,而 不 同 复 中 的 对 象 彼此 相 蜡 。 
将 物理 或 抽象 对 象 的 集合 划分 为 相似 对 象 的 类 的 过 程 称 为 聚 类 。 

聚 类 分 析 具 有 广泛 的 应 用 ,包括 商务 智能 、 图 像 模 式 识 别 、Web 搜索 .生物 学 和 安 
全 。 聚 类 分 析 可 以 作为 独立 的 数据 挖掘 工具 来 获得 对 数据 分 布 的 了 解 , 也 可 以 作 
为 在 检测 的 簇 上 运行 的 其 他 数据 挖掘 算法 的 预 处 理 过程 。 

聚 类 是 数据 挖掘 研究 的 一 个 富有 活力 的 领域 。 它 与 机 器 学 习 的 无 监督 学 习 有 关 。 
聚 类 是 一 个 充满 挑战 性 的 领域 ,其 典型 的 要 求 包 括 可 伸缩 性 ,处理 不 同类 型 的 数 
据 和 属性 的 能 力 、 发 现任 意 形状 的 簇 、 确 定 输入 参数 的 最 小 领域 知识 需求 .处理 噪 
声 数据 的 能 力 、 增 量 聚 类 和 对 输入 次 序 的 不 敏感 性 、 聚 类 高 维 数据 的 能 力 、. 基 于 约 
束 的 能 力 ,以 及 聚 类 的 可 解释 性 和 可 用 性 。 

目前 已 经 开发 了 许多 聚 类 算法 .这 些 算法 可 以 从 多 方面 分 类 ,如 根据 划分 标准 、 簇 
的 分 离 性 、 所 使 用 的 相似 性 度量 和 聚 类 空间 。 本 章 讨论 如 下 几 类 主要 的 基本 聚 类 
方法 : 划分 方法 、 层 次 方法 ,基于 密度 的 方法 和 概率 模型 的 聚 类 方法 。 

划分 方法 首先 创建 上 个 分 区 的 初始 结合 ,其 中 参数 人 是 要 构建 的 分 区 数 。 然 后 ， 
它 采用 迭代 重 定位 技术 ,试图 通过 把 对 象 从 一 个 簇 移 到 另 一 个 簇 来 改进 划分 的 质 
量 。 典 型 的 划分 方法 包括 k-means k 中 心 点 .CLAEANS。 

层次 方法 创建 给 定数 据 对 象 集 的 层次 分 解 。 根 据 层 次 分 解 的 形成 方式 ,层次 方法 
可 以 分 为 凝聚 的 ( 自 底 向 上 ) 或 分 裂 的 ( 自 顶 向 下 )。 典 型 的 层次 方法 包括 
BIRCH .CURE Chameleon, 
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基于 密度 的 方法 基于 密度 的 概念 来 聚 类 对 象 。 一 种 代表 性 方法 是 DBSCAN, È 
使 用 基于 中 心 的 方法 定义 相似 度 ,根据 邻 域 中 对 象 的 密度 来 生成 和 能。 其 他 典型 的 
基于 密度 的 方法 还 有 OPTICS,DENCLUE. 

基于 概率 模型 的 聚 类 假定 每 个 簇 是 一 个 有 参 分 布 。 使 用 待 聚 类 的 数据 作为 观测 
样本 ,可 以 估计 簇 的 参数 。 

混合 模型 假定 观测 对 象 是 来 自 多 个 概率 簇 的 实例 的 混合 。 从 概念 上 讲 , 每 个 观测 
对 象 都 是 通过 如 下 方法 独立 地 产生 的 : 首先 根据 簇 概 率 选 择 一 个 概率 簇 ,然后 根 
据 选 定 簇 的 概率 密度 函数 选择 一 个 样本 。 

期 望 最 大 化 (EM) 算 法 是 一 个 框架 , 它 允 近 最 大 似 然 或 统计 模型 参数 的 后 验 概率 
估计 。EM 算法 可 以 用 来 计算 模糊 聚 类 和 基于 概率 模型 的 聚 类 。 

聚 类 评估 对 在 数据 集 上 进行 聚 类 分 析 的 可 行 性 和 由 聚 类 方法 产生 的 结果 的 质量 
进行 估计。 任务 包括 评估 聚 类 趋势 .确定 簇 数 和 测定 聚 类 的 质量 。 


69 习 题 


1. 假设 数据 挖掘 的 任务 是 将 如 下 的 8 个 点 (用 (zx,y) 代 表 位 置 ) 聚 类 为 3 个 艇 : 


A1(2,10),A,(2,5),.A;(8,4),B(5,8),B,(7,5).B;3(6.4),C(1,2),C,(4,9) 


距离 函数 是 欧 氏 距离 。 假 设 初始 时 选择 A By 和 Cy 分 别 为 每 个 簇 的 中 心 , 用 A 均 


值 算法 给 出 : 


(1) 在 第 一 轮 执 行 后 的 3 个 簇 中 心 。 

(2) 最 后 的 3 个 簇 。 

2. k-means fil k 中 心 点 算法 都 可 以 进行 有 效 的 聚 类 。 

(1) 概述 k-means 和 “中心 点 相 比 较 的 优 缺 点 。 

(2) 概述 这 两 种 方法 与 层次 聚 类 方法 (如 AGNES) 相 比 有 何 优 缺 点 。 

3. 对 于 k-means 算法 ,有趣 的 是 通过 小 心地 选择 初始 簇 中 心 ,或 许 不 仅 可 以 加 快 算 


法 的 收敛 速度 ,而 且 能 够 保证 结果 聚 类 的 质量 。Ameans 十 十 算法 是 k-means 算法 的 变 
形 , 它 按 以 下 方法 选择 初始 中 心 。 首 先 , 它 从 数据 对 象 中 随机 地 选择 一 个 中 心 。 和 迭代 地 ， 


对 于 





F 每 个 未 被 选 为 中 心 的 对 象 p ,选择 一 个 作为 新 中 心 。 该 对 象 以 正比 于 dist(p)* 的 概 


率 随机 选取 ,其 中 dist(p) 是 p 到 已 选 定 的 最 近 中 心 的 距离 。 和 迭代 过 程 继续 ,直到 选 出 
个 中 心 。 


解释 为 什么 该 方法 不 仅 可 以 加 快 k-means 算法 的 收敛 速度 ,而 且 能 够 保证 最 终 聚 类 


结果 的 质量 。 


4. 假定 一 个 数据 集 : 


Aim Tk TR. 

— P H A AGE TE BEA” ah. 

一 半 的 点 和 簇 在 “不 太 稠 密 的 ”区 域 。 
两 个 区 域 之 间 是 明显 分 离 的 。 





对 于 给 定 的 数据 集 ,下 面 哪 种 做 法 可 以 最 小 化 寻找 上 个 簇 时 的 平方 误差 ? 


249 


AHBRARHAA 


(1) 在 较 稠 密 和 不 太 稠 密 的 区 域 质心 分 布 应 当 相同 。 

(2) 不 太 稠密 的 区 域 应 当 分 配 更 多 的 质心 。 

(3) 较 稠 密 的 区 域 应 当 分 配 更 多 的 质心 。 

5. 有 了 时 ,层次 聚 类 用 来 产生 & 个 徐 ,k 二 1。 方法 是 取 树 状 图 的 第 k 层 ( 根 在 第 一 层 ) 
的 徐 。 通 过 观察 这 种 方法 产生 的 簇 ,可 以 评估 不 同 数据 和 簇 类 型 的 层次 聚 类 行为 ,并 且 将 
FAK REA k-means 进行 比较 。 

下 面 是 一 维 点 的 集合 : {6,12,18,24,30,42,48)。 

(1) 对 于 下 列 每 组 初始 质心 ,将 每 个 点 指派 到 最 近 的 质心 ,创建 两 个 簇 ,然后 对 两 个 
簇 的 每 组 质心 分 别 计算 总 平方 误差 。 对 每 组 质心 ,给 出 这 两 个 徐 和 总 平方 误差 。 

® {18,45}; © {15,40} 

(2) 两 组 质心 代表 稳定 解 吗 ? 即 如 果 在 该 数据 集 上 使 用 给 定 的 质心 作为 初始 质心 运 
行 k-means, 所 产生 的 簇 会 有 改变 吗 ? 

(3) 使 用 单 连 接 产 生 的 簇 是 什么 ? 

(4) 在 此 情况 下 , 哪 种 技术 (k-means 或 单 连 接 ) 能 够 产生 “最 自然 的 ” 徐 ? (对 于 & 均 
值 , 用 最 小 平方 误差 产生 聚 类 。) 

6. 平面 上 上 个 点 集合 的 Voronoi 图 是 将 平面 上 所 有 点 分 成 个 区 域 的 一 个 划分 ， 
使 得 (平面 上 ) 每 个 点 都 指派 到 个 指定 点 中 最 近 的 一 个 ( 见 图 6-28)。Voronoi 图 与 
k-means 秘 之 间 的 关系 是 什么 ? 关于 k-means fE Hy a HEIE AR, Voronoi 图 能 告诉 我 们 
什么 ? 

















图 6-28 习题 6 的 Voronoi 图 


7. 总 SSE 是 每 个 属性 的 SSE 之 和 。 如 果 对 于 所 有 的 簇 , 某 变 量 的 SSE 都 很 低 ,这 意 
味 什么 ? 如 果 只 对 一 个 簇 很 低 呢 ? 如 果 对 所 有 艇 都 高 呢 ? 如 果 仅 对 一 个 簇 高 呢 ? 如 何 使 
用 每 个 变量 的 SSE 信息 改进 聚 类 ? 

8. 使 用 图 6-29 中 的 相似 度 矩 阵 进行 单 连接 和 全 连接 层次 聚 类 。 绘 制 树 状 图 显示 结 
果 。 树 状 图 应 当 清楚 地 显示 合并 的 次 序 。 

9. 给 定 具 有 100 个 记录 的 数据 集 . 要 求 对 数据 聚 类 。 使 用 k-means 对 数据 聚 类 ,但 


BOB APPARAO 


pl p2 p3 p4 p5 
pl [1.00 0.10 0.41 0.55 0.35 
p2 | 0.10 1.00 0.64 0.47 0.98 
p3 |041 0.64 1.00 0.44 0.85 
p4 | 0.55 0.47 0.44 1.00 0.76 
ps [0.35 0.98 0.85 0.76 1.00 


6-29 习题 8 ASA AL BE EE 


是 对 所 有 的 k 值 ,k-means 算法 都 只 返回 一 个 非 空 簇 。 再 用 k-means 的 增 量 版 本 ,但 得 
到 的 结果 完全 相同 。 这 是 怎么 回 事 ? 用 层次 聚 类 的 单 连接 或 DBSCAN 处 理 该 数据 , 结 
果 如 何 ? 

10. 传统 的 凝聚 层次 聚 类 过 程 每 步 合 并 两 个 徐 。 这 样 的 方法 能 够 正确 地 捕获 数据 点 
集 的 ( 嵌 套 的 ) 簇 结构 吗 ? 如 果 不 能 ,解释 如 何 对 结果 进行 后 处 理 , 以 得 到 簇 结构 更 正确 的 
视图 。 

11. 从 如 下 3 个 角度 对 下 列 每 种 聚 类 方法 进行 描述 : 中 可 以 确定 的 簇 的 形状 ; OW 
须 指定 的 输入 参数 ; @ 局 限 性 。 

(1) k-means 

(2) &- 中 心 点 

(3) CLARA 

(4) DBSCAN 

12. 指出 在 何 种 情况 下 ,基于 密度 的 聚 类 方法 比 基 于 划分 的 聚 类 方法 和 层次 聚 类 方 
法 更 适合 。 并 给 出 一 些 实例 来 支持 你 的 观点 。 

13. 给 定 两 个 点 集 ,每 个 点 集 包 含 100 个 落 在 单位 正方 形 中 的 点 。 一 个 点 集 这 样 安 
排 ,使 得 点 在 空间 中 均匀 地 分 布 。 另 一 个 点 集 由 单位 正方 形 上 的 均匀 分 布 产生 。 

(1) 这 两 个 点 集 之 间 有 差别 吗 ? 

(2) 如 果 有 ,对 于 kt 一 10 4988 , 哪 一 个 点 集 通常 具有 较 小 的 SSE? 

(3) DBSCAN 在 均匀 数据 集 上 的 行为 如 何 ? 在 随机 数据 集 上 呢 ? 

14. 对 于 8 个 对 象 {p1,p2,p3,p4,p5,p6,p7,p8} 和 图 6-30 显示 的 层次 聚 类 ,计算 层 
次 下 度量 。 类 A 包含 点 pl、p2 和 p3, 而 p4、p5、p6、p7 和 p8 属于 类 B。 





{p1, p2, p3, p4, p5, p6, p7, p8} 




















tpl, p2, p4, p5) {p3, p6, p7, p8} 




















tpl, p2} {p4, p5) {p3, p6} {p7, p8} 


6-30 习题 14 的 层次 聚 类 
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15. 计算 表 6-5 P ÁE Y E E AI HAA IE o 
ROS 习题 15 的 混淆 矩阵 

















i BA 财经 国外 国内 都 市 体育 合计 
1 1 1 0 4 11 676 693 
2 27 89 333 253 827 33 1562 
3 326 465 8 16 105 29 949 
合计 354 555 341 273 943 738 738 


























16. 给 出 一 个 例子 来 说 明 如 何 集成 特定 的 聚 类 方法 ,例如 ,一 种 聚 类 算法 被 用 作 另 一 
种 算法 的 预 处 理 步骤。 此 外 ,请 解释 为 什么 两 种 聚 类 方法 的 集成 有 时 会 改进 聚 类 的 质量 
和 有 效 性 。 

17. 聚 类 已 经 被 认为 是 一 种 具有 广泛 应 用 的 、 重 要 的 数据 挖掘 任务 。 对 如 下 每 种 情 
况 给 出 一 个 应 用 实例 : 

D 把 聚 类 作为 主要 的 数据 挖掘 功能 的 应 用 。 

(2) 把 聚 类 作为 预 处 理工 具 , 为 其 他 数据 挖掘 任务 作 数据 准备 的 应 用 。 

18. 图 6-31 显示 具有 两 个 入 的 二 维 点 集 的 聚 类 。 左 边 的 簇 (点 用 星 号 标记 ) 有 些 分 
散 , 而 右边 的 簇 (点 用 圆 标记 ) 是 紧 竣 的 。 而 紧 竣 簇 的 右边 有 一 个 单独 的 点 (用 箭头 指出 ) 
属于 散 开 的 徐 。 该 簇 的 中 心 比 紧凑 簇 的 中 心 远 得 多 。 解 释 为 什么 用 EM 聚 类 这 是 可 能 
的 ,但 是 用 k-means 聚 类 不 可 能 。 





6-31 习题 18 的 数据 集 。 具 有 两 个 不 同 密度 的 簇 的 二 维 点 集 的 EM 聚 类 


19. 传统 的 聚 类 方法 是 僵硬 的 ,应 为 它们 要 求 每 个 对 象 排他 性 地 只 属于 一 个 簇 。 解 
释 为 什么 这 是 模糊 聚 类 的 特例 。 你 可 以 使 用 k-means 作为 例子 。 

20. 传统 的 k-means 具有 许多 局 限 性 ,例如 对 离 群 点 敏感 ,难以 处 理 不 同 大 小 和 不 同 
密度 或 具有 非 球形 形状 的 簇 。 评 论 模糊 c 均值 处 理 这 些 问 题 的 能 力 。 
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人 类 在 探索 人 脑 结构 与 功能 、 模 拟人 脑 工作 机 理 以 及 人 造 大 脑 的 道路 上 孜孜 不 倦 , 沿 
着 这 条 道路 一 直 走 下 去 ,可 能 永远 达 不 到 目标 ,但 发 现 了 一 些 有 意义 的 东西 。 人 工 神经 网 
络 就 是 模拟 人 脑 层次 连接 结构 .大脑 神 经 元 处 理 功能 的 连接 主义 方法 论 指导 下 的 成 功 模 
型 。 狭 义 深 度 学 习 不 过 是 人 工 神 经 网 络 经 历 懂 懂 启蒙 (神经 元 模型 ,1943 年 )\ 不 可 一 世 
的 热潮 (感知 机 ，1958 年 ) ,寒冷 冰 谷 (XOR 问题 瓶颈 ,1969 年 )、 略 有 起 色 (BP 算法 ,1986 
年 ) 和 走 下 神 坛 的 复杂 问题 应 用 突破 (深度 学 习 ,2006 年 ) 后 又 一 个 春天 。 自 从 20 世纪 80 
年 代 中 期 到 21 世纪 初 人 工 神经 网 络 一 直 处 于 浅 层 神经 网 络 的 稳定 发 展 与 小 规模 问题 求 
解 ,近年 来 在 大 数据 量 和 高 计算 能 力 驱 动 下 ,以 深层 神经 网 络 求解 复杂 问题 的 深度 学 习 开 
始 受 到 人 们 的 广泛 关注 ,甚至 家 喻 户 晓 。 

深度 学 习 (Deep Learning,DL) 是 人 工 智 能 、 机 器 学 习 研 究 中 的 一 个 非常 有 潜力 的 领 
域 ,其 动机 在 于 建立 ,模拟 人 脑 进行 分 析 学 习 的 神经 网 络 , 它 模仿 人 类 大 脑 的 机 制 来 解释 
数据 ,例如 图 像 声音 和 文本 。 由 于 深度 学 习 模 型 能 够 在 大 规模 训练 数据 上 取得 更 好 的 效 
果 , 因 此 在 机 器 学 习 领 域 中 有 着 良好 的 应 用 前 景 。 本 章 从 深度 学 习 的 发 展 和 基本 概念 
(7.1 节 ) 开 始 介绍 ,然后 再 具体 分 析 深度 学 习 的 几 种 经 典 模型 与 算法 .包括 最 常用 的 深信 
网 (7. 2 节 ) TRG ALK BLT. 3 节 )、 栈 式 自动 编码 器 (7.4 节 ) 和 卷 积 神经 网 络 (7.5 节 )。 本 
章 还 简要 介绍 了 几 种 深度 学 习 开 源 平 台 (7. 6 节 ) 并 给 出 了 一 个 具体 案例 ,使 读者 能 够 熟悉 
深度 学 习 在 实际 应 用 中 的 整个 工作 过 程 。 最 后 .总结 了 几 点 深度 学 习 的 实用 技巧 (7.7 节 )。 


Tl 5| 言 





本 节 首 先 描述 深度 学 习 的 发 展 背景 ,然后 比较 深度 学 习 的 几 种 常见 的 经 典 模型 和 它 
们 的 相关 知识 。 


7.1.1 发 展 背 景 


早 在 1943 年 ,McCulloch 和 Pitts 就 提出 了 一 种 “MP 神经 元 模型 "来 模拟 大 脑 神经 
元 的 工作 机 理 , 这 种 模型 在 人 工 神经 网 络 以 及 深度 学 习 中 一 直 沿 用 至 今 。 在 该 模型 的 信 
号 传递 过 程 中 , 某 一 待 处 理 的 神经 元 会 接收 到 其 他 神经 元 的 输入 信号 ,并 通过 权重 的 连接 
进行 传递 , 即 加 权 求 和 运算 获得 神经 元 输入 ,该 神经 元 接收 到 的 总 输入 值 与 其 阔 值 进行 比 
较 , 并 通过 “激活 函数 ”(activation function) 处 理 , 最 后 产生 神经 元 的 输出 。MP 模型 很 容 
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易 实现 与 .或 , 非 运算 。 但 是 , 随 着 后 来 某 些 现实 任务 的 复杂 ,人 们 发 现 其 学 习 能 力 非常 有 
限 ,甚至 不 能 解决 简单 的 “ 异 或 "问题 。 直 到 在 20 世纪 80 年 代 , 误 差 反 向 传播 (Back 
Propagation，BP) 训 练 算 法 开始 发 展 起 来 ,研究 者 发 现 利 用 BP 算法 可 以 让 一 个 人 工 神经 
网 络 模型 从 大 量 训练 样本 中 学 习 输 入 输出 的 复杂 非 线 性 映射 关系 ,从 而 对 未 知事 件 做 预 
测 , 由 此 掀起 了 神经 网 络 第 二 次 高 潮 。 这 使 得 神经 网 络 再 度 引 起 广泛 关注 ,BP 算法 也 成 
为 此 后 几 十 年 来 神经 网 络 的 应 用 和 研究 中 最 为 典型 的 学 习 算法 。BP 算法 的 发 明 对 深度 
学 习 的 提出 与 发 展 做 出 了 巨大 贡献 ,在 当时 基于 BP 算法 的 这 样 一 些 神经 网 络 也 被 广泛 
称 作为 多 层 感 知 机 (Multi-Layer Perceptron，MLP)。20 世纪 90 年 代 , 研 究 者 发 现 从 样 
本 集中 学 习 统计 规律 能 使 基于 统计 的 机 器 学 习 方 法 比 起 过 去 基于 人 工 规则 的 系统 在 很 多 
方面 显 出 优越 性 ,一 种 影响 巨大 的 浅 层 机 器 学 习 模 型 被 提出 , 即 支 持 向 量 机 (Support 
Vector Machines. SVM) ,这 种 模型 的 结构 基本 上 可 以 看 成 带 有 单 层 隐 层 节点 的 神经 网 
络 , 且 在 理论 分 析 和 应 用 中 都 获得 了 较 大 的 成 功 。 相 比 之 下 ,典型 的 浅 层 人 工 神 经 网 络 拟 
合 输入 输出 的 非 线性 映射 关系 ,而 中 间 隐 层 类 似 于 黑箱 ,使 得 理论 分 析 的 难度 大 ,训练 方 
法 又 需要 较 多 经 验 和 技巧 ,使 得 这 个 时 期 浅 层 人 工 神经 网 络 相 对 沉寂 。 

2006 年 ,加拿大 多 伦 多 大 学 教授 Hinton 等 人 提出 了 深度 学 习 , 并 表达 了 深度 学 习 的 
两 种 基本 特点 : 第 一 ,多 隐 层 的 人 工 神 经 网 络 具 有 优异 的 特征 学 习 能 力 ,学 习 得 到 的 特征 
对 数据 有 更 本 质 的 刻画 ,从 而 有 利于 对 原始 数据 进行 识别 或 分 类 ;第 二 ,深度 神经 网 络 
在 训练 上 的 难度 可 以 通过 “ 逐 层 初始 化 预 训练 "(layer-wise pretraining) 来 有 效 降 低 。 此 
后 ,以 深度 学 习 为 代表 的 复杂 模型 便 开始 受到 人 们 的 关注 ,并 迎 来 了 神经 网 络 的 又 一 次 
浪潮 。 


7.1.2 基本 概念 


经 过 近 十 年 的 发 展 ,深度 学 习 基于 不 同 的 结构 和 原理 已 经 涌现 出 多 种 经 典 且 实 用 的 
模型 。 典 型 的 深度 学 习 模 型 有 深信 和 网、 深度 波 尔 兹 曼 机 、 栈 式 自动 编码 器 、 卷 积 神经 网 络 
等 , 表 7-1 和 表 7-2 描述 了 深度 学 习 的 这 几 种 模型 并 比较 了 它们 之 间 的 异同 。 


表 7-1 深度 学 习 的 几 种 典型 模型 


模型 


深信 网 
DBN 


深度 玻 尔 兹 曼 机 
DBM 


栈 式 自动 编码 器 
SAE 


卷 积 神经 网 络 
CNN 








FRAZA RBM 
组 成 的 深 网 络 , 逐 层 
贪 禁 预 训练 ,每 一 层 
学 习 过 程 即 为 RBM 
训练 过 程 。 预 训练 完 
成 后 ,将 网 络 展开 为 
深层 次 前 向 网 络 , 再 
运用 BP 算法 进行 
微调 





借鉴 能 量 模 型 
RBM 的 基本 思想 ， 
通过 增加 RBM 的 
隐 层 数量 而 构造 的 
深 网 络 , 学 习 过 程 
同 RBM 相似 , 但 
层次 增多 





通过 组 合 多 个 “自动 纺 
码 ” 网 络 ( 类 似 于 三 层 自 
学 习 BP 网 络 ) 而 构造 
的 深 网 络 ,首先 逐 层 贪 
禁 预 训练 ,每 一 层 学 习 
过 程 同 BP 算法 一 致 。 
预 训练 完成 后 ,将 网 络 
展开 为 深层 次 前 向 网 
络 ,再 运用 BP 算法 进 
行 整体 微调 





针对 二 维 数据 设计 
的 一 种 模拟 “感受 
野 ” 的 功能 结构 , 通 
过 多 次 卷 积 和 池 化 
过 程 构造 的 深 网 
络 ,网 络 的 训练 含 
有 “ 权 共 享 " 和 “ 稀 
玖 ”特点 ,学 习 参 数 
过 程 类 似 于 BP 
算法 
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续 表 
ka 深信 网 深度 臣 尔 兹 曼 机 | BOCA aR 卷 积 神经 网 络 
DBN DBM SAE CNN 
DBN 和 DBM 的 相同 点 在 于 二 者 都 是 基于 | SAE 和 CNN 的 相同 点 在 于 : 模型 训练 中 , 误 
能 量 模型 RBM 的 改进 , 预 训练 过 程 都 与 | 差 反 向 传播 过 程 都 与 BP 算法 相似 ;不 同 在 
异同 点 | RBM 的 原理 相似 ;不 同 在 于 DBN 由 多 个 | F: SAE 每 层 之 间 全 连接 ,CNN 每 层 之 间 进 
RBM 组 成 ,而 DBM 可 以 看 作 一 个 多 隐 层 | 行 局 部 连接 ,每 次 进行 小 块 的 二 维 卷 积 和 
的 REM 池 化 
EERE MAE EERE RETR ， 
训练 模式 | Fa oe 整体 网 络 训练 。 eam 整体 网 络 训练 
有 监督 / | 无 监督 预 训练 
e Sesan ERE ERE 有 监督 
- 更 好 的 学 习 数 据 的 | 解决 无 标签 数据 的 特征 | 学 习 能 力 强 ,特征 
优点 RITAR | 深层 隐 特征 ,有 利 | 学 习 过 程 ,在 模式 识别 | 提取 方面 效果 很 
于 分 类 或 可 视 化 ”| 方面 应 用 广泛 好 ,分 类 正确 率 高 
每 一 层 的 训练 受 上 一 | 深层 网 络 统一 训 调 参 比较 麻烦 ,网 
缺点 | 层 的 训练 结果 影响 ，| 练 ,参数 更 新 缓慢 ,| FATADA A | 络 有 一 定 的 复杂 
容易 过 拟 合 复杂 度 高 度 ,训练 组 慢 
表 7-2 ”深度 学 习 几 种 模型 的 目标 函数 对 比 
模 型 目标 函数 
预 训练 目标 函数 : E(v,h) = 一 È vibi 一 5 hjc; — Ss vih jw 
sisa ANT A V A 
微调 目标 函数 , E(w) = LS) 于 上 ia N? 
PR BEDE AR BBL Eohi P) =— 2 wP oh — D7 D wpa a 
楼 式 自 动 编码 器 Ew) =>) Lial 
卷 积 神经 网 络 Ew = LS) L yl? 





总 的 来 讲 ,深度 学 习 可 以 简单 理解 为 深层 神经 网 络 的 一 种 新 的 学 习 范 式 , 有 着 更 好 的 
学 习 能 力 , 它 是 通过 组 合 低层 特征 形成 更 加 抽象 的 高 层 表 示 ,以 此 更 好 地 发 现 原始 数据 的 
属性 类 别 或 特征 表达 。 深 度 学 习 一 定 程度 上 改善 了 以 往 传统 神经 网 络 在 训练 中 所 表现 出 
来 的 目标 函数 优化 的 局 部 极 小 ,不 能 收敛 到 稳定 状态 等 问题 ,并 且 在 高 性 能 计算 平台 支撑 
下 对 图 像 .语音 文本 数据 的 理解 .识别 等 复杂 问题 求解 取得 了 巨大 突破 。 下 面 对 几 种 典 
型 的 深度 学 习 模 型 与 算法 展开 具体 分 析 。 


12 RG 


深度 学 习 取 得 成 功 的 第 一 个 典型 深层 次 结构 模型 就 是 深信 网 (Deep Belief Network, 
DBN) , 它 是 由 多 个 受 限 玻 尔 兹 曼 机 堆 释 而 成 的 网 络 。 其 训练 过 程 包括 预 训练 和 微调 两 
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个 阶段 , 预 训练 阶段 是 一 种 通过 多 个 独立 受 限 玻 尔 效 曼 机 的 无 监督 逐 层 训练 ,上 一 个 受 
限 玻 尔 兹 曼 机 训练 成 熟 后 的 输出 直接 作为 下 一 个 受 限 波 尔 效 曼 机 的 输入 ;微调 阶段 是 
将 链接 起 来 的 深层 前 向 神经 网 络 通过 BP 算法 进行 微调 校正 权 值 。 接 下 来 本 节 首先 对 
玻 尔 兹 曼 机 结构 进行 介绍 ,然后 介绍 受 限 的 玻 尔 兹 曼 机 ,最 后 描述 深信 网 的 详细 结构 
和 算法 。 


7.2.1 WRH 


在 神经 网 络 大 家 族 中 定义 了 一 种 层 间 全 连接 层 内 互联 的 网 络 模 型 ,并 为 网 络 状态 定 
义 了 一 个 “全 局 能 量 ”, 在 这 种 能 量 最 稳定 即 能 量 
最 小 的 时 候 , 该 网 络 就 达到 理想 状态 。 对 该 网 络 
的 训练 即 为 最 小 化 这 个 能 量 函数 ,这 样 的 模型 称 
H AK 2% & HL (Boltzmann Machine，BM), 其 简 
单 结构 如 图 7-1 DT as. TE BR AR 2 I 2B aE — 4 
神经 元 的 取 值 都 是 布尔 型 的 , 即 只 能 够 取 0 和 1 
两 种 状态 ,为 1 表示 激活 ,为 0 则 表示 抑制 。 
图 中 ,w Mo 表示 网 络 中 第 i 和 j 个 神经 元 
节点 状态 值 ,zww 表示 这 两 个 神经 元 节点 之 间 的 连 
接 权 ,0; 表示 第 i 个 神经 元 节点 阔 值 ,在 Hebb 学 





图 7-1 玻 尔 兹 曼 机 结构 习 规 则 启发 下 ,该 玻 尔 兹 曼 机 网 络 的 联合 能 量 函 
数 可 以 定义 为 
E) 一 一 > È WyViVj 一 »> vibi (7-1) 


网 络 训练 过 程 就 是 通过 最 小 化 能 量 函 数 ,将 每 个 训练 样本 与 隐 神 经 元 状态 整体 视 为 
一 个 玻 尔 兹 曼 机 网 络 的 当前 状态 向 量 , 使 其 出 现 的 概率 尽 可 能 大 ,利用 联合 概率 分 布 的 最 
大 似 然 函 数 可 以 更 新 网 络 的 连接 权 。 联 合 概率 模型 的 一 种 合理 策略 是 神经 元 状态 的 联合 
概率 与 它们 的 能 量 函 数 成 反比 例 , 利 用 指数 徐 分 布 可 以 定义 网 络 某 一 状态 向 量 v 出 现 的 
概率 , 即 由 其 能 量 与 所 有 可 能 状态 向 量 1 的 能 量 和 (满足 全 概 公式 ) 来 确定 : 


—E(v) 


P(v) = Oo (7-2) 


> R EE 
7.2.2 FRERE RHL 


ER HE DE ZR 2 BIL KO RS A 4 E E E E OE A O 2 GSB BEAR TE — 
些 复杂 数据 并 不 能 很 好 地 处 理 。 在 现实 任务 中 ,通过 限制 网 络 结构 为 两 层 结构 且 层 内 没 
有 互 连 , 提 出 了 受 限 玻 尔 效 曼 机 (Restricted Boltzmann Machine, RBM)。 与 BM 不 同 在 
于 ,RBM 模型 的 节点 连接 是 一 个 二 分 图 , 它 含 有 随机 二 进 制 单元 的 两 层 网 络 ,分 别称 为 可 
视 层 和 隐 层 ,两 层 之 间 是 全 连接 且 带 有 对 称 的 权重 ,而 每 一 层 内 部 节点 之 间 无 连接 。 可 视 
层 单元 是 一 些 可 观察 的 实 值 数据 (通常 约 东 为 0/1 状态 值 ) , 隐 层 节点 值 取 0/1 状态 ,代表 





数据 的 隐 特 征 层 。RBM 的 基本 结构 如 图 7-2 所 示 。 
E RBM 中 ,输入 层 v 和 隐 层 h 的 联合 能 o 6 c, 

量 函 数 定义 如 下 : 
E(v,h) 一 一 5 vbi 一 >> hjc; 


i=l 





隐 节 点 
WmXn 


一 3) whws (7-3) 可 视 节点 


SEP so, Mh, 是 可 视 层 和 隐 层 的 网 络 节点 值 ， 
bi Me, 是 二 者 对 应 节点 阔 值 ,ay 是 连接 两 层 
节点 之 间 的 连接 权 。 b, b, bn 

通过 能 量 丽 数 为 可 视 层 每 一 个 节点 对 应 图 7-2 受 限 玻 尔 兹 曼 机 结构 
状态 随机 变量 定义 了 抽样 时 的 概率 密度 函数 
如 下 ， 














> en Fo 
P(v) = Sean (7-4) 
vh 
其 中 分 母 表示 一 种 “ 配 分 函数 ”形式 ,代表 了 可 视 层 和 隐 层 所 有 节点 的 一 种 基于 能 量 的 活 
跃 度 ,能 量 越 小 , 则 某 一 节点 值 越 活跃 ;分 子 代 表 了 基于 所 有 隐 层 能 量 得 到 的 可 视 层 节点 
激活 值 。 
从 式 (7-4) 可 以 看 出 ,为 了 使 得 可 视 层 某 一 节点 的 当前 概率 p(v) 最 大 化 , 则 需要 降 
低 当前 节点 的 能 量 ,并 且 同 时 提高 其 他 节点 的 能 量 。 通 过 对 式 (7-4) 的 似 然 函数 logp Co) 
最 大 化 ,结合 随机 梯度 上 升 策略 来 求 得 可 视 层 概率 极 大 值 ,根据 梯度 上 升 可 获得 相应 的 权 
值 修改 量 (其 中 7 为 学 习 率 ) ， 


a 
higy = 9 OREO = GE why an —< thy Si (7-5) 


Iwi 
RBM 在 训练 过 程 中 ,基于 可 视 层 输入 v, 可 以 得 到 第 j 个 隐 层 节点 状态 更 新 为 激活 
值 1 的 条 件 概 率 如 下 : 


ph; =1|v) = AÈ UW +c) (7-6) 

i=1 
同 理 , 基 于 隐 层 节点 值 h, 也 可 以 得 到 可 视 层 第 i 节点 状态 更 新 为 激活 值 1 的 条 件 概 

RWF: 

plvi=1|h)= res hws +b: ) (17) 

j=l 
通常 ,RBM 的 两 层 网 络 状态 可 以 从 可 视 层 的 输入 状态 值 通过 式 (7-6) 和 式 (7-7) 重 复 
交替 更 新 隐 层 和 可 视 层 ,这 个 过 程 称 为 “交替 执行 Gibbs 抽样 >, 直到 网 络 获得 输入 样本 的 
稳定 联合 分 布 ,网 络 的 输出 激活 函数 通常 采用 最 常用 的 Sigmoid PARK: f(x) 二 1/(1 十 
e“)。 由 输入 样本 数据 作为 最 开始 的 可 视 层 状态 ,已 知 输入 状态 条 件 下 执行 Gibbs 抽样 
产生 隐 层 状态 ,对 应 式 (7-5) 右 边 第 一 项 ;在 当前 网 络 连 接 权 保持 不 变 的 情况 下 ,RBM 模 
型 经 过 自 底 向 上 - 自 顶 向 下 的 多 次 Gibbs 抽样 后 .抽样 产生 的 可 视 层 状态 和 隐 层 状态 作为 


Ae ee ee eA 


模型 生成 的 状态 ,对 应 式 (7-5) 右 边 第 二 项 。 这 种 方式 近似 获得 式 (7-5) 的 模型 参数 更 新 
公式 , 同 理 可 以 计算 阔 值 的 更 新 变化 量 (其 中 7 为 学 习 率 ), 即 
Aw; = 7(= vih; >an —< vih; 全 modd) 
> = N Vidata 一 Vimodel ) (7-8) 
Ac; = 了 ja — h jmodei ) 
EEI E PA E Ud AE et ÉE Se ANC A A TIE AR A 
wi < wy + Aw; 
和 {7-9} 
cy GF Ag; 


7.2.3 深信 网 


深信 网 是 一 个 典型 的 深层 神经 网 络 模型 , 它 的 网 络 结构 如 图 7-3 所 示 ,其 模型 构造 和 
训练 过 程 分 为 两 阶段 : 第 一 阶段 是 通过 RBM 逐 层 初始 化 * 预 训练 "图 7-3(a) ) ,将 每 一 个 
RBM 学 习 后 的 隐 层 输出 特征 表达 直接 作为 下 一 个 RBM 两 层 结构 的 输入 , 层 与 层 之 间 独 
立 按照 RBM 所 要 求 的 迭代 次 数 依 次 进行 无 监督 学 习 和 更 新 参数 ;第 二 阶段 是 全 局 “ 微 
调 ”, 将 预 训练 阶段 的 多 个 RBM 展开 链接 起 来 的 深层 前 向 神经 网 络 ( 图 7-3(b)), 下 半 部 
分 称 为 编码 ,上 半 部 分 称 为 解码 ,这 样 构 造 的 深 网 络 的 初始 权 值 就 是 预 训练 阶段 的 一 系列 
RBM 的 权 值 。 由 于 逐 层 训练 RBM 结构 对 数据 的 特征 学 习 并 不 是 最 好 的 ,还 需 通 过 BP 











(a) 预 训练 (b) 微调 
图 7-3 深信 网 结构 
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算法 进行 自 监督 (输入 输出 误差 最 小 ) 的 微调 校正 权 值 , 最 终 网 络 结构 可 以 实现 维 数 约 简 ， 
即 通 过 限制 中 间 神 经 元 的 更 小 个 数 起 到 降 维 的 作用 。 深 信和 网 也 能 用 于 分 类 问题 ,只 需 在 
编码 部 分 的 项 部 加 一 个 分 类 层 ,一 般 是 加 一 个 线性 分 类 层 , 然 后 只 需要 误差 反 向 传递 修改 
分 类 层 的 权 值 即 可 。 

从 图 7-3 中 可 以 看 出 ,DBN 首先 会 将 大 量 参 数 分 组 ,通过 预 训练 从 输入 层 开 始 逐 层 
为 每 组 找到 它们 局 部 最 好 权 的 初始 设置 ,然后 再 基于 这 些 局 部 较 优 的 结果 联合 起 来 构建 
整体 深 网 络 , 并 采用 随机 梯度 进行 全 局 微调 。 其 预 训练 阶段 被 Hinton 称 为 非 监督 逐 层 
贪 禁 学 习 , 学 习 规 则 即 为 逐 层 RBM 的 训练 过 程 ,直到 模型 达到 稳定 状态 ;在 DBN 微调 阶 
段 采用 传统 多 层 BP 神经 网 络 的 随机 梯度 下 降 法 训练 ,该 过 程 又 分 为 编码 学 习 和 解码 重 
构 : 编码 学 习 就 是 通过 展开 后 的 网 络 将 原始 高 维 数据 映射 至 低 维 空间 ,解码 重 构 就 是 通 
过 相 逆 的 解码 网 络 来 重 构 原 始 高 维 数据 。 算 法 7-1 描述 了 DBN 预 训练 过 程 。 

算法 7-1 深信 网 预 训练 过 程 

输入 : 训练 集 V 一 {fu ,wm，…aon) ,网 络 学 习 率 q RBM 个 数 N, 和 迭代 次 数 iter 

输出 : 训练 完成 的 多 个 RBM 展开 成 的 初始 深 网 络 





oR: 

l; for n= 1 > N do 

2: 在 (0,1) 范 围 内 随机 初始 化 当前 RBM 的 连接 权 值 wj MBI b; c; 

3: repeat 

4 for all v EV do 

5 根据 当前 参数 和 式 (7-6) 抽 样 隐 层 节点 状态 值 hy ,并 结合 输入 值 v 和 隐 层 值 
hy ,对 应 乘积 获得 当前 RBM 网 络 的 初始 联合 状态 一 wj > aa 

6: 根据 h; 和 式 (7-7) 抽 样 重 构 的 可 视 层 节 点 状态 值 立 , 并 根据 zw 和 式 (7-6) 再 次 
抽样 重 构 的 隐 层 节点 状态 值 记 

Ti HILO, 和 有 的 乘积 ,获得 当前 RBM 网 络 的 模型 联合 状态 一 wj j > modes 

8: Vida Ds haan “hj » Vimodet Ti: » hjmodel Wj 

9: 根据 式 (7-8) 和 式 (7-9) 更 新 当前 RBM 的 连接 权 值 rw 和 阅 值 b; 、c; 

10; end for 

11: until 网 络 训练 达到 迭代 数 iter 

12: end for 


DBN 的 微调 阶段 所 用 到 的 基本 思想 即 为 BP 算法 原理 ,目标 函数 即 为 原始 数据 和 重 
构 数据 的 误差 。 下 面 详细 介绍 BP 算法 流程 。 

BP 算法 每 次 调整 权 值 包括 信和 号 正 向 传播 与 误差 反 向 传播 两 个 过 程 。 首 先 样本 输入 
信号 从 输入 层 经 各 隐 层 神经 元 逐 层 由 低层 向 高 层 传播 ,最 终 传 向 输出 层 , 计 算 所 有 样本 输 
入 信和 号 对 网 络 的 输出 与 期 望 样本 输出 的 全 局 误差 ;然后 检验 全 局 误差 , 若 全 局 误差 未 达到 
要 求 , 则 通过 误差 反 向 传播 由 输出 层 开始 逐 层 修改 各 层 神 经 元 间 的 连接 权 。 经 过 若干 次 
信号 正 向 传播 与 误差 反 向 传播 过 程 .最 终 使 网 络 对 全 体 样本 信号 的 输出 值 与 期 望 值 的 全 
局 误差 达到 要 求 。 

设 第 mn 一 1 层 第 i 个 神经 元 与 第 wm 层 第 j 个 神经 元 间 的 连接 权 为 wy” ,第 m 层 第 j 
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个 神经 元 的 输入 记 为 net” ,输出 记 为 0;”,P 个 样本 中 第 p 个 样本 信号 记 为 (X?*,Y?*), 其 
中 样本 序号 p 二 1,2,…,P。 下 面 分 析 具 体 过 程 。 
(1) 信号 正 向 传播 。 
从 输入 层 节点 逐 层 向 前 计算 每 一 个 节点 的 输入 输出 ,第 j 个 节点 的 输入 输出 为 
net” = >) wPo” (7-10) 


On = fne”) (7-11) 
Hp, 4 m= 1 时 ,车 输入 信号 oe? = {ah ,x9 ,… ,9), 则 net)? = Dwat K m WH 


出 层 时 ,网 络 第 个 节点 的 输出 为 : YE =O"? =S eh), Ia TEBE HI BRE AS A P t i 
BAY = {58 eee DE eee SR TALI AY LARLY = (oy? sere a yf e eee ek ) ARE BE 
K 
Er = +>) Gt — 58) (7-12) 


(2) 反 向 传播 过 程 。 
从 输出 层 向 输入 层 反 向 进行 误差 修正 , 按 极 小 化 误差 的 方式 调整 权 值 ,控制 要 求 常 为 


7 
每 一 E'(RE= > E) 满足 给 定 的 精度 要 求 。 此 阶段 之 所 以 称 为 反 向 传播 阶段 (或 称 


b 
误差 反 向 传播 阶段 ) ,是 对 应 输入 信号 的 正 向 传播 而 言 的 。 因 为 在 开始 调整 神经 元 的 权 值 
时 ,只 能 先 求 输出 层 的 误差 ,而 其 他 层 的 误差 要 通过 此 误差 反 向 逐 层 向 后 推 才能 得 到 , 因 
而 得 名 。 

(3) 算法 分 析 。 

BP 算法 过 程 可 以 分 为 两 种 ,一 种 是 按 样 本 顺序 提交 , 男 一 种 则 是 消除 样本 顺序 影响 。 

D 按 样本 顺序 提交 的 BP 算法 。 

对 样本 集 {(XI YT) ,CX?,),…,(X?,Y?),…,(X?,Y?)), 网 络 根 据 (X!,Y!) 计 
算出 实际 输出 YY 和 误差 测度 E ,对 各 层 wb" 做 一 次 调整 ;在 此 基础 上 ,再 根据 (X?,Y?) 
计算 实际 输出 Y? 和 误差 测度 FF ,再 对 各 层 ww" 做 一 次 调整 …… 如 此 下 去 ,直到 本 次 循 
环 最 后 一 个 样本 (X?,Y?) 计 算 实 际 输出 Y? 和 误差 测度 EP ,对 各 层 wy"” 做 第 PP 次 调整 。 
这 个 过 程 ,相当 于 是 对 样本 集中 各 个 样本 的 一 次 循环 处 理 。 这 个 循环 需要 重复 下 去 ， 
直到 对 整个 样本 集 来 说 误差 测度 的 总 和 满足 系统 的 要 求 为 止 , 即 下 <e( 此 处 e 为 精度 
控制 参数 ) 。 

@ 消除 样本 顺序 影响 的 批 处 理 的 BP 算法 。 

按 四 所 述 的 算法 能 在 一 定 程 度 上 抽取 出 样本 集中 所 含 的 输入 向 量 和 输出 向 量 之 间 的 
关系 。 但 是 BP 网 络 接受 样本 的 顺序 仍然 对 训练 的 结果 有 较 大 的 影响 。 比 较 而 言 , 网 络 
更 “偏向 ” 较 后 出 现 的 样本 : 如 果 每 次 循环 都 按 (XI Y?) (XY?) see XP YP) re XP, 
YY?) 的 顺序 进行 训练 ,在 网 络 “ 学 成 ”投入 运行 后 ,对 于 与 该 样本 序列 较 后 的 样本 较 接近 的 
输入 ,网 络 所 给 出 的 输出 的 精度 将 明显 高 于 与 样本 序列 较 前 的 样本 较 接 近 的 输入 对 应 的 
输出 的 精度 。 那 么 ,是 否 可 以 根据 样本 集 的 具体 情况 ,给 样本 集中 的 样本 安排 一 个 适当 的 
顺序 ,以 求 达到 基本 消除 样本 顺序 的 影响 ,获得 更 好 的 学 习 效 果 呢 ?这 是 非常 困难 的 。 因 


262 


R272 RES 


为 无 论 如 何 排 列 这 些 样本 , 它 终归 要 有 一 个 顺序 ,序列 排 得 好 ,顺序 的 影响 只 会 稍 小 一 些 。 
另外 ,要 想 给 样本 数据 排列 一 个 顺序 ,本 来 就 不 是 一 件 容易 的 事情 ,再 加 上 要 考虑 网 络 本 
身 的 因素 ,就 更 困难 了 。 

造成 样本 顺序 对 结果 产生 严重 影响 的 原因 是 : 算法 对 各 层 wy” 的 调整 是 分 别 依次 根 
HE CX? 1) CX? 7),…,(X?,Y?),…,(X?,Y?) 完 成 的 。“ 分 别 " 和 “依次 ”决定 了 网 络 对 
“后 来 者 ”的 “偏爱 ”"。 实 际 上 ,按照 这 种 方法 进行 训练 ,有 了 时 其 至 会 引起 训练 过 程 的 严重 拌 
动 , 它 可 能 使 网 络 难 以 达到 用 户 要 求 的 训练 精度 。 这 是 因为 排 在 较 前 的 样本 对 网 络 的 影 
响 被 排 在 较 后 的 样本 的 影响 掩盖 了 ,从 而 使 得 排 在 较 后 的 样本 对 最 终结 果 的 影响 就 要 比 
排 在 较 前 的 样本 的 影响 大 。 

虽然 在 精度 要 求 不 高 的 情况 下 ,顺序 的 影响 有 时 是 可 以 忽略 的 ,但 是 还 应 该 尽量 消除 
È. 那么, 如何 消除 样本 顺序 对 结果 的 影响 呢 ?” 根 据 上 述 分 析 , 算 法 应 该 避免 分别“ 依 
次 ”的 出 现 。 因 此 ,不 再 分 别 依 次 根据 (CX? YE) ,(X?,Y),…,(X?,Y?),…,(X?,Y?) 对 各 
E wi" 进行 调整 ,而 是 用 样本 集 { CX! YT) ,CX?,Y?),…,(X?,Y?),…,(X?,Y?)}) 的 “总 效 
果 ” 去 实施 对 wy” 的 修改 ,这 就 可 以 较 好 地 将 样本 集 的 样本 的 一 系列 学 习 变 成 对 整个 样 
本 的 学 习 。 

@ 随机 梯度 下 降 法 。 

DBN 微调 阶段 的 训练 过 程 使 用 的 是 基于 随机 梯度 下 降 策略 的 BP 算法 ,该 过 程 每 一 
次 执行 都 会 随机 选择 训练 集 的 一 个 子 集 构建 目标 来 求解 。 即 DBN 在 微调 过 程 的 训练 中 
会 对 样本 划分 进行 批 次 训练 ,每 一 次 循环 都 是 在 分 批 样本 中 随机 选择 一 批 进行 训练 ,这 不 
仅 体 现 了 上 述 BP 算法 中 所 描述 的 消除 样本 顺序 影响 ,还 体现 了 对 大 数据 分 批 训练 的 思 
想 , 有 利于 网 络 学 习 到 更 好 的 特征 。 

当 计算 了 一 个 随机 选择 的 训练 样本 子 集 的 网 络 实际 输出 与 期 望 输出 的 误差 E, M 
出 层 到 第 一 层 按 最 陡 梯度 下 降 法 调整 连接 权 , 则 获得 随机 选择 的 训练 样本 子 集 “总 效果 ” 
的 最 简单 的 权 值 更 新 采取 如 下 通用 迭代 公式 : 





doc lib oa oe E 
wy" <— wy” ?aw 

OF Doe (7-13) 
Jw” 加 之 Iwp 


上 式 中 OO ARREK EJ O AF ET B AR a h FRH AORN 


数 而 有 所 变化 ,形式 上 是 按 传 统 BP 算法 的 误差 反 向 传播 来 计算 。 算 法 7-2 描述 了 DBN 
算法 7-2 深信 网 微调 过 程 
输入 : MAB X= {zi ,x2，… ,zn) ,网 络 学 习 率 四 每 批 训 练 样本 数 batch_size, 和 迭代 次 数 iter 
输出 : 训练 完成 的 深信 网 
om: 
1: 根据 算法 7-1 进行 多 个 独立 的 RBM 预 训 练 , 并 展开 成 深层 前 向 BP 神经 网 络 
2: 加 载 预 训练 完成 的 网 络 连接 权 值 rw 和 每 一 层 节点 阔 值 ; ,将 w 作为 网 络 编码 阶段 的 初 
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始 连 接 权 值 ,并 将 其 转 置 ww 作为 网 络 解码 阶段 的 初始 连接 权 值 Vs 


3: repeat 

4: 将 整个 训练 集 和 Hz batch_size 大 小 随机 划分 成 N 批 

5: for n =1—>N do 

6: for all X, CX do 

iy 根据 式 (7-10) 和 式 (7-11) 计 算 当前 批 次 样本 的 网 络 前 向 输出 叉 ， 
8: 根据 式 (7-12) 计 算 当前 批 次 样本 的 输入 X, 和 输出 X, RŽ E 
9: 根据 式 (7-13) 更 新 网 络 的 连接 权 值 ws PORTAE b; 

10; end for 

ll: end for 


12: until USA ATA PIARA iter 或 所 有 误差 小 于 给 定 最 大 误差 界 
73 深 玻 尔 兹 曼 机 


2013 年 ,R. Salakhutdinov 等 人 通过 仔细 研究 RBM 的 机 理 ,把 某 一 个 RBM 隐藏 层 
的 层 数 增加 ,构成 了 另 一 种 深度 学 习 模 型 , 称 为 深 玻 尔 效 曼 机 (Deep Boltzmann Machine, 
DBM) 模 型 。 下 面 详细 描述 该 模型 的 结构 和 算法 : 

DBM 模型 总 体 结构 如 图 7-4 所 示 , DBM 是 多 层 
对 称 连接 的 随机 二 进 制 单元 , 它 包含 可 视 层 vE {0,1} 
All n SEJER? © (0,1) ,模型 的 任意 邻接 的 两 层 之 间 
是 全 连接 且 带 有 对 称 的 权重 ,而 每 一 层 内 部 节点 之 间 
无 连接 。 

DBN 在 预 训练 阶段 ,只 是 利用 基本 的 两 层 RBM 人 
EZERK., DBM 和 它 的 最 大 区 别 在 于 DBM 
的 某 一 层 节 点 分 布 同时 依赖 其 他 所 有 层 。 下 面 以 可 视 
E v 和 3 个 隐 层 AD hP h” 的 深 玻 尔 效 曼 机 (DBM) 
为 例 ,为 了 简化 并 约束 每 层 的 国 值 固定 为 0, 则 DBM 图 7-4 ”深度 玻 尔 兹 曼 机 结构 
网 络 整 体 结构 (v,h) 的 联合 能 量 函 数 定义 如 下 : 

Evh; P) 一 一 >) wPvh? 一 >) wPh PhP — DY wRAPAP (1-14) 
ij a ik 


ye! 








HP A={h™ hb? ©}, T= lw -w pw } 
与 RBM 中 的 式 (7-4) 同 理 ,DBM 利用 所 有 隐 层 节点 状态 ,通过 玻 尔 效 曼 分 布 原 理 为 
可 视 层 v 产 生 状态 的 概率 分 布 如 下 : 


plv,y) = È exp(— Elu, h” h” ,h® 5h) (7-15) 
gi h 


DBM 计算 可 视 层 v 状态 的 概率 分 布 需要 依赖 隐 层 4" 的 状态 分 布 ,而 隐 层 AR HH 
隐 层 h? 的 状态 分 布 和 可 视 层 v 状态 分 布 ,h'” 依 赖 隐 层 h 同时 依赖 隐 层 A. DBM 的 
中 间 层 的 神经 元 状态 的 抽样 概率 依赖 于 前 一 层 和 后 一 层 神 经 元 状态 ,最 高 隐 层 h” 神 经 
元 状态 的 抽样 概率 只 依赖 于 h” ”神经 元 状态 。 所 以 DBM 可 以 理解 成 一 个 多 隐 层 的 
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RBM ,其 结构 和 RBM 类 似 。 训 练 过 程 中 ,所 有 层 的 节点 产生 激活 值 1 的 条 件 概率 可 通过 


如 下 公式 计算 : 


F, 


D 2 
PAP = 1) oh) = f( >) wiv; D whAP ) 
i=l 


i=1 


Fi Fs 
PAP = 1i ne) = f(D) WHAM + >) wn ) 


j=l k=1 


F, 
PhP Sf Il h?) = H2 wh? ) 
1=1 


Fi 
poni = 11h) = f( >) wP) 
j=1 


(7-16) 


其 中 ,f(z) 依 然 采 用 Sigmoid 函数 : (C2) =1/0 +e) , RR RUR RRR Bill 
隐 层 有 相应 变化 ,通过 对 式 (7-15) 的 似 然 函 数 logp(v) 最 大 化 ,结合 式 (7-16) 求 得 的 各 层 
节点 状态 ,利用 随机 梯度 上 升 策 略 求 概率 极 大 值 , 同 时 调整 网 络 的 权重 参数 ,公式 如 下 : 


Aw? = JlogP (v;o) 有 IE pina vk?” ]— Epmosesvh®” ]) 


dw” 


Aw? = 9logP(v;9) _ ME pa APh?" J = E mosa LAP h®" D 


Iw 


Aw® = dlogh Coy g): — HE pana LAP hO] — E mosa AP h D 


Jw? 


(7-17) 


FEP , E pana / E pmoaes 37 5!) Be A RAR AE A A ERAR AI A) Aa A LE, fi f t F E paa FH T BL Jz 
输入 数据 通过 模型 第 一 次 自 底 向 上 抽样 状态 来 计算 ,而 E poaa 可 取 网 络 自 顶 向 下 和 自 底 
向 上 的 多 次 运行 后 各 层 模 型 生成 状态 值 来 计算 。 模 型 最 后 统一 更 新 网 络 参 数 的 迭代 公式 


如 下 : 
W< V+AV 
其 中 V= (lw ww” w} APS (Aw ,Aw” Aw}, 
算法 7-3 HIE T RBA 2K & BLCDBMD fH UAE FH 。 


算法 7-3 深 玻 尔 兹 曼 机 训练 过 程 

输入 : MAR V= {u ,vs ，,… Un) TEAR iter 

输出 : 训练 完成 的 DBM 深 网 络 

we: 

: 在 (0,1) 范 围 内 随机 初始 化 当前 网 络 所 有 连接 权 wij? ,z 一 1,2,3 
repeat 

: for all v EV do 


wow 


(7-18) 


根据 当前 参数 和 式 (7-16) 计 算 自 底 向 上 和 自 项 向 下 抽样 各 神经 元 输出 状态 ;// 第 一 


次 自 底 向 上 的 各 隐 层 状态 值 作为 数据 产生 ,多 次 运行 后 的 状态 值 作为 模型 生成 


5: 利用 式 (7-17) 和 式 (7-18) 的 学 习 规则 更 新 网 络 权 值 参数 W 
6: end for 
7: until 网 络 训练 达到 迭代 数 iter 
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总 之 ,DBM 模型 可 以 看 作 是 一 个 多 层 无 向 图 ,每 一 中 间 层 之 间 节 点 全 都 互 有 反馈 ,以 
至 于 DBM 的 网 络 结构 较为 复杂 。 在 实际 应 用 中 ,DBM 模型 能 模拟 更 为 复杂 的 数据 ,但 
存在 训练 缓慢 的 问题 。 


74 栈 式 自动 编码 器 


2007 年 ,Bengio 等 人 借鉴 DBN 模型 的 思想 ,构造 三 层 自 监督 的 BP 网 络 代 替 RBM 
结构 ,连接 成 一 种 新 的 深 网 络 结构 , 称 为 栈 式 自动 编码 器 (Stacked Auto Encoder, SAE). 
SAE 的 训练 过 程 和 DBN 相似 ,也 包含 了 预 训练 和 微调 两 个 阶段 。 不同 之 处 在 于 , DBN 
的 预 训练 由 多 个 RBM HERAT «iti SAE 的 结构 包含 了 多 个 基本 的 自动 编码 结构 (三 层 
结构 ,如 图 7-5(b) 所 示 ) ,每 一 个 基本 自动 编码 结构 是 一 个 三 层 BP 神经 网 络 ,包括 输入 
层 、 隐 层 和 重 构 层 。 本 节 首 先 阐述 自动 编码 原理 ,然后 具体 描述 栈 式 自 动 编码 器 的 详细 结 
构 和 算法 。 


7.4.1 自动 编码 器 


通常 在 一 些 分 类 任务 中 ,对 于 神经 网 络 的 输入 样本 zx 都 带 有 标签 值 3 ,这 样 可 以 根据 
减 小 当前 网 络 预测 值 y 和 标签 3 之 间 的 均 方 误差 来 调整 网 络 中 各 层 参 数 , 直 到 网 络 收敛 
稳定 。 在 有 监督 的 神经 网 络 中 ,对 于 每 个 训练 样本 (x,53) ,标签 5 一般 是 收集 到 的 准确 输 
出 。 但 是 如 果 现 在 只 有 无 标签 数据 ,要 想 使 用 同样 的 思想 训练 网 络 ,那么 这 个 误差 值 应 该 
怎么 得 到 呢 ? 自然 地 ,可 以 假设 有 一 种 模型 , 它 可 以 是 网 络 输出 与 输入 表达 一 致 ,然后 直 
接 使 用 这 种 对 数据 的 重 构 2 与 原始 数据 zx 之 差 作为 误差 度量 ,再 通过 最 小 化 这 个 重 构 误 
差 来 调整 网 络 参 数 , 这 样 的 模型 称 为 自动 编码 器 (Auto Encoder，AE)。 自 动 编码 器 是 一 
种 无 监督 学 习 模 型 ,训练 数据 本 来 是 没有 标签 的 , 令 每 个 样本 的 标签 为 原始 数据 z, 可 以 
理解 为 其 标签 是 样本 数据 本 身 。 图 7-5 对 普通 前 馈 神 经 网 络 和 自动 编码 器 原理 进行 了 
比较 。 


Wy 


wi 

© © QO = © 

输入 层 隐藏 层 输出 层 标签 
(a) 普通 前 馈 神 经 网 络 














(b) 自动 编码 器 
图 7-5 普通 前 馈 神 经 网 络 和 自动 编码 器 


从 图 中 可 以 看 出 ,自动 编码 器 就 是 一 种 尽 可 能 重建 输入 信号 的 神经 网 络 ,原始 数据 通 
过 输入 到 一 个 编码 器 (encoder) ,就 可 以 得 到 数据 的 隐 特 征 表达 ,然后 隐 特 征 继续 通过 解 
码 器 (decoder) ,得 到 对 原 输入 数据 的 重 构 信息 。 它 的 训练 包含 如 下 过 程 : 
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(1) 输入 层 到 隐藏 层 的 编码 过 程 ; 





h; = f(wyx; +6;) (7-19) 
(2) 隐藏 层 到 输出 层 的 解码 重 构 过 程 : 
B= fCigh, bp) (7-20) 
(3) 计算 原始 数据 的 重 构 误 差 损失 函数 : 
E(w,b) = 1È PE (7-21) 


(A) 结合 BP 反 向 传播 算法 ,根据 式 (7-13) 更 新 网 络 连接 权 值 w; MAAS RK bs o 
7.4.2 栈 式 自动 编码 器 


栈 式 自动 编码 器 (SAE) 在 预 训练 中 使 用 无 监督 贪 禁 逐 层 训 练 三 层 浅 网 络 的 策略 ( 基 
于 BP 算法 ) ,通过 多 个 三 层 浅 网 络 的 学 习 有 助 于 获得 初始 优化 网 络 参数 ,这 使 得 网 络 首 
先 获 得 一 个 很 好 的 局 部 极 小 区 域 的 初始 权 值 ,从 而 产生 内 部 分 布 式 表 示 高 层次 的 抽象 的 
输入 , 带 来 更 好 的 逐 层 内 在 特征 表达 。 每 一 层 单独 训练 参数 ,然后 保留 这 些 参数 。 同 样 ， 
为 了 得 到 更 好 的 训练 结果 , 预 训练 完成 过 后 ,SAE 结合 标签 ,通过 BP 算法 对 网 络 所 有 层 
的 参数 进行 有 监督 的 全 局 微调 ,使 训练 结果 根据 目标 输出 得 到 改善 。 下 面 分 析 栈 式 自动 
编码 器 SAE 的 训练 过 程 : 

(1) 如 图 7-6 所 示 ,首先 采用 三 层 自 编码 网 络 ( 自 监督 的 BP 算法 ), 先 训练 从 输入 层 
到 h" 层 的 参数 。 

(2) 如 图 7-7 所 示 , 一 个 自动 编码 器 训练 完成 后 ,h'" 层 的 隐 特 征 将 直接 作为 下 一 个 
三 层 自动 编码 器 的 输入 ,接着 训练 从 h” 层 到 hh 中 层 的 参数 。 





图 7-6 SAE 输入 层 到 第 一 隐 层 的 训练 图 7-7 SAE 第 一 隐 层 到 第 二 隐 层 的 训练 


G) 同 理 , 根 据 第 (2) 步 ,依次 逐 层 贪 禁 学 习 , 直 到 最 后 一 个 三 层 自 动 编码 器 训练 完 
毕 , 则 SAE 的 预 训练 结束 。 算 法 7-4 描述 了 栈 式 自动 编码 器 的 预 训练 算法 。 


算法 7-4 栈 式 自动 编码 器 预 训练 过 程 
输入 : 训练 集 X= {zi ,zo，… tm) ,网 络 学 习 率 7,AE THN ERK iter 
输出 : 训练 完成 的 多 个 AE 组 合 的 深 网 络 
oR: 
1: for n = 1 > N do 
2: 在 (0,1) 范 围 内 随机 初始 化 当前 AE 的 编码 权 值 rw 、 解 码 权 值 w MB b, 
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3: repeat 

4: for all z; EX do 

5: 根据 当前 参数 和 式 (7-19) , 式 (7-20) 计 算 当 前 AE 的 三 层 前 向 网 络 输出 云 
6 根据 式 (7-21) 计 算 当 前 AE 输入 层 zx; 和 输出 层 z; 的 均 方 误差 E(w,6) 
Ti 根据 式 (7-13) 更 新 当前 AE 的 三 层 前 向 网 络 的 权 值 w; ,vy 和 阅 值 b， 

8: end for 

9 until 网 络 和 迭代 次 数 达 到 iter 

10: end for 


(A) SAE 预 训练 完成 之 后 ,除去 网 络 所 有 的 解码 过 程 ,再 将 网 络 整体 连接 成 前 向 深 
层 BP 网 络 结构 ,利用 最 后 一 个 隐 层 的 特征 数据 AY? Hg? ,As (假设 网 络 一 共 k 层 ,最 
后 一 个 隐 层 有 g 个 节点 ) ,结合 原始 数据 的 标签 信息 , 接 入 一 个 分 类 层 , 实 际 应 用 中 分 类 
层 常 采用 SoftMax 策略 ,最 终 通 过 BP 算法 来 训练 模型 执行 原始 数据 的 多 分 类 任务 ,如 
图 7-8 所 示 。 该 过 程 中 网 络 会 整体 微调 参数 ,训练 过 程 同 有 监督 深层 神经 网 络 的 学 习 一 致 。 





输入 层 隐藏 层 输出 层 
图 7-8 接 人 分 类 层 的 栈 式 自动 编码 器 


算法 7-5 描述 了 栈 式 自动 编码 器 (SAE) 的 微调 学 习 算法 。 


算法 7-5 栈 式 自动 编码 器 微调 过 程 

输入 : 训练 集 XS {zx1 ,zx ，… ,zn) ,标签 集 Y 二 {yy,y:，…，,y,) ,网 络 学 习 率 7, 每 批 训练 样本 数 
batch_size, 和 迭代 次 数 iter 

输出 : 训练 完成 的 栈 式 自动 编码 网 络 

om: 
1: 根据 算法 7-4 对 SAE 进行 预 训 练 ,并 将 预 训 练 完成 的 网 络 展开 为 前 向 深层 BP 神经 网 络 
2, 去 除 网 络 中 所 有 解码 结构 ,加 载 预 训练 完成 的 各 层 AE 权 值 w AH b: 
3: 将 整个 训练 集 X 和 标签 集 Y 按 batch_size 大 小 划分 成 N 批 “ // 随 机 梯度 下 降 策略 


4: repeat 

5: for n= 1 > N do 

6: for all X,CX,Y,CY do // 55 n WIERE 
t HBR HEC (7-10) ANSE -IDIA M BT AE CRE A E 9 PEL, 
Bi 根据 式 (7-12) 计 算 网 络 输出 Y, 和 数据 标签 Y, 的 误差 EE 

9: 根据 式 (7-13) 更 新 网 络 的 连接 权 值 ws AULA b; 
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10: end for 
1l: end for 
12: until 网 络 选 代 次 数 达 到 最 大 选 代 次 数 iter 或 所 有 输出 误差 小 于 给 定 误差 限 


75 卷 积 神经 网 络 


卷 积 神经 网 络 (Convolutional Neural Network, CNN) i if WY RRR VF 1962 年 
Hubel 和 Wiesel 通过 对 猫 视觉 皮层 细胞 的 研究 ,他 们 提出 了 感受 野 (Receptive Field) 的 
概念 ,也 称 为 视觉 简单 细胞 感受 野 。1984 年 ,日 本 学 者 Fukushima 基于 简单 细胞 感受 野 
概念 提出 了 神经 认 知 机 模型 ,实现 了 第 一 个 原始 的 卷 积 神经 网 络 模型 ,也 是 感受 野 认 知 概 
念 与 人 工 神经 网 络 结合 的 初次 应 用 。 卷 积 神经 网 络 是 为 识别 二 维 信号 特别 是 图 像 而 设计 
的 一 个 多 层 感知 器 ,这 种 网 络 结构 对 平移 .比例 缩放 、 倾 斜 或 者 其 他 形式 的 变换 具有 高 度 
不 变性 , 它 通过 一 系列 局 部 二 维 滤 波 器 能 够 保持 图 像 的 局 部 空间 二 维 关 系 和 提取 二 维 内 
在 特征 表示 。 卷 积 神经 网 络 中 的 卷 积 和 池 化 操作 使 得 整个 网 络 对 二 维 图 像 输入 的 抗 畸变 
容错 能 力 变 得 更 强 。 

卷 积 神经 网 络 是 一 种 前 馈 深 层 局 部 连接 神经 网 络 , 通 过 局 部 的 滤波 与 池 化 的 交 蔡 运 
算 多 次 提取 内 在 特征 ,然后 全 连接 到 一 个 分 类 层 , 卷 积 神经 网 络 模 型 的 训练 可 分 为 两 个 基 
本 过 程 : 前 向 传播 的 卷 积 、 池 化 、 加 权 求 和 等 操作 计算 输出 值 ,以 及 误差 反 向 传播 调整 权 
{EL AA IB {EL XE CNN 的 图 像 分 类 应 用 ,其 中 前 向 传播 计算 输出 值 的 过 程 就 是 : 输入 一 张 
图 像 , 对 输入 的 图 像 先 进行 一 系列 交替 的 卷 积 和 池 化 操作 ,实现 对 输入 图 像 的 特征 提取 ， 
然后 再 将 提取 的 特征 送 入 到 分 类 层 来 训练 分 类 器 。 而 误差 反 向 传播 调整 权 值 和 阔 值 这 一 
过 程 就 是 : 先 利 用 整个 网 络 输出 与 期 望 输出 计算 误差 目标 函数 玉 , 类 似 BP, 误 差 反 向 逐 
层 加 权 传 递 就 得 到 每 个 权 值 所 对 应 的 梯度 ,最 后 用 所 得 的 梯度 去 更 新 层 间 连接 权 值 和 神 
经 元 阔 值 项 , 权 值 和 偏 置 更 新 的 通用 公式 如 下 : 


wy < wy + Aw; 








_ aE 
Oe By (7-22) 
bi <— b; + Ab; 

JE 
Ab; 一 一 155 


由 于 局 部 连接 使 得 卷 积 神经 网 络 的 前 向 计算 与 误差 反 向 传播 的 传统 前 馈 神 经 网 络 略 
有 不 同 。 

本 节 首 先 描述 矩阵 的 卷 积 和 池 化 过 程 , 然 后 分 析 卷 及 神经 网 络 的 具体 结构 和 训练 算 
法 ,最 后 给 出 一 个 应 用 案例 。 


7.5.1 卷 积 
不 失 一 般 性 ,假定 卷 积 过 程 如 图 7-9 所 示 且 卷 积 核 大 小 是 2X2, 输 入 的 特征 图 
(feature map) X 大 小 是 4X4, 用 这 个 2X2 卷 积 核 在 特征 图 X 上 自 左 向 右 、 自 上 而 下 地 深 
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动 卷 积 一 遍 , 就 可 以 得 到 一 个 新 的 大 小 是 (4 一 2 十 1) X (4 一 2 十 1) =3X3 的 特征 图 了 ,其 
中 卷 积 核 移 动 步 幅 大 小 是 1 ,每 次 卷 积 都 是 对 应 元 素 相 乘 再 相 加 (如 图 7-9 右边 所 示 )。 新 
得 到 的 特征 图 立 是 卷 积 核 与 上 一 层 的 特征 图 X 对 应 位 置 的 神经 元 的 输出 加 权 求 和 ,然后 
加 上 偏 置 项 ,再 通过 激活 函数 Cactivation function) 变 换 后 得 到 。 
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输入 特征 X EREK 输出 特征 Y 
图 7-9 卷 积 过 程 示意 图 


在 卷 积 神经 网 络 中 ,每 个 卷 积 层 的 特征 图 的 大 小 由 卷 积 核 和 上 一 层 输 入 的 特征 图 的 
大 小 决定 ,假如 上 一 层 的 特征 图 大 小 是 nXm, 卷 积 核 的 大 小 是 k, Xk, , 卷 积 核 移 动 步 幅 
大 小 是 1, 则 当前 层 的 特征 图 大 小 是 (Cn 一 &,)/s 十 1) X (Cm 一 km)/s 十 1)。 在 卷 积 神经 网 
络 的 实际 应 用 中 通常 可 以 采用 两 种 卷 积 方式 : 一 种 是 如 上 所 述 常 用 的 罕 卷 积 , 用 
conv2(X,Y,vaild) 表 示 ; 另 一 种 就 是 宽 卷 积 , 在 卷 积 运算 前 , 先 将 输入 的 特征 图 X 在 上 下 
各 添加 A, 一 1 行 零 向 量 , 左 右 各 添加 如 一 1 列 零 向 量 , 保 证 卷 积 前 后 的 特征 图 大 小 一 样 ， 
然后 再 卷 积 ,用 conv2(X,Y,full) 表 示 。 

在 图 7-9 中 ,与 输入 特征 图 XX 中 zw ,zo ,zioyzn 这 4 个 位 置 的 神经 元 相连 的 卷 积 核 
的 权 值 koo shor ,kio An 在 卷 积 核 滚动 的 过 程 中 又 可 以 被 其 他 的 神经 元 使 用 ,而 这 体现 了 卷 
积 神经 网 络 权 值 共享 的 特点 。 权 重 共 享 可 以 减少 网 络 中 大 量 的 参数 ,从 而 减少 存储 网 络 
时 所 耗费 的 存储 容量 。 而 且 在 卷 积 操作 的 过 程 中 ,下 一 层 的 特征 图 中 的 每 个 神经 元 只 与 
上 一 层 的 特征 图 中 卷 积 窗口 内 的 神经 元 相连 接 , 并 不 是 同时 与 上 一 层 特征 图 中 所 有 的 神 
经 元 相连 接 , 这 种 上 一 层 特征 图 中 一 个 区 域 的 神经 元 与 下 一 层 特征 图 中 一 个 神经 元 直接 
相连 的 方式 是 强制 使 用 局 部 连接 模式 来 利用 图 像 的 空间 局 部 二 维特 性 ,从 而 体现 出 了 卷 
积 神经 网 络 的 另 一 个 特点 一 一 稀疏 连接 与 空间 二 维 保持 。 图 7-10 是 邻接 层 稀 疏 连 接 和 
全 连接 对 比 图 ,可 以 看 到 ,在 上 方 的 稀 朴 连接 图 中 ,神经 元 S R XX X 相连 接 , 其 
他 的 神经 元 也 只 与 前 一 层 的 部 分 神经 元 相连 接 ; 在 下 方 的 全 连接 图 中 ,神经 元 S: 则 与 前 
一 层 的 所 有 神经 元 连接 。 

在 卷 积 操作 的 过 程 中 ,由 于 只 是 通过 一 个 局 部 的 感受 野 ( 卷 积 窗口 ) 去 感受 外 界 的 图 


部 区 域 的 神经 元 综合 起 来 ,就 可 以 得 到 全 局 的 信息 ,因此 , 卷 积 神经 网 络 具有 极 强 的 捕 提 
局 部 二 维特 征 的 能 力 , 也 具有 捕捉 平移 变换 目标 的 能 力 。 
7.5.2 Wt 


在 通过 卷 积 获得 图 像 的 特征 之 后 ,就 可 以 利用 这 些 特征 进行 分 类 ,从 理论 上 来 说 , 虽 
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(b) 全 连接 
图 7-10 邻接 层 稀 朴 连接 与 全 连接 


然 可 以 直接 使 用 所 有 这 些 特征 去 训练 分 类 器 ,但 是 由 于 特征 图 是 2D 图 ,如 果 将 所 有 的 特 
征 全 部 变 成 一 维 , 则 卷 积 特征 维度 非常 高 ,直接 用 这 些 特征 去 训练 分 类 器 ,就 可 能 会 产生 
很 大 的 计算 量 , 并 且 也 可 能 会 产生 过 拟 合 (overfitting) 的 情况 。 为 此 引入 了 池 化 
(pooling ,也 称 为 子 采样 ,sub-sampling) 操 作 ,在 捕捉 高 级 特征 的 同时 降低 计算 量 。 图 像 
的 局 部 重复 性 使 得 一 个 区 域 有 用 的 特征 可 以 用 来 描述 另 一 个 区 域 。 因 此 ,为 了 描述 大 尺 
度 的 图 像 ,一 个 很 自然 的 想法 就 是 对 不 同位 置 的 特征 进行 聚合 统计 , 即 池 化 操作 。 例 如 ， 
对 上 一 层 特征 图 进行 采样 处 理 , 而 采样 的 方式 就 是 对 上 一 层 的 特征 图 中 的 不 同位 置 相 邻 
小 区 域内 的 特征 进行 聚合 统计 ,统计 的 方式 通常 有 两 种 ,一 种 是 求 一 个 小 区 域内 的 特征 的 
平均 值 , 另 一 种 就 是 求 一 个 小 区 域内 的 特征 的 最 大 值 。 池 化 后 将 会 得 到 新 的 特征 图 ,此 时 
的 特征 图 的 维度 相对 前 一 层 的 特征 图 则 会 低 得 多 , 池 化 的 操作 记 为 S 一 down(CX)。 

以 图 7-11 中 具体 的 池 化 操作 为 例 ,输入 的 特征 图 X 大 小 是 4X4, 池 化 的 窗口 大 小 是 
2X2, 池 化 窗口 通常 以 不 重 本 的 方式 自 左 向 右 、 自 上 而 下 的 方式 移动 ,此 处 移动 步 幅 大 小 
即 为 2, 采 用 平均 池 化 的 采样 方法 , 池 化 窗口 在 特征 图 X 上 移动 一 遍 , 就 会 得 到 一 个 新 的 
大 小 是 2X2 的 特征 图 S, 而 特征 图 S 的 大 小 只 有 上 一 层 的 特征 图 X 的 1/4( 注 意 : 2X2 
的 池 化 窗口 使 得 行列 都 减 半 ) 。 
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输入 特征 X 输出 特征 了 
7-11 池 化 过 程 示意 图 
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池 化 操作 可 以 很 好 地 降低 网 络 中 的 特征 维度 ,从 而 降低 整个 卷 积 神经 网 络 模型 的 复 
杂 度 。 除 此 之 外 , 池 化 操作 还 可 以 起 到 提取 图 像 二 次 高 级 特征 的 作用 。 


7.5.3 CNN 训练 过 程 





由 于 卷 积 神经 网 络 也 是 一 种 前 馈 局 部 连接 神经 网 络 , 整 个 网 络 模型 在 训练 的 过 程 中 
也 包括 了 两 个 过 程 ,一 个 是 前 向 传递 计算 输出 值 , 另 一 个 则 是 误差 反 向 传播 调整 网 络 的 权 
值 和 阔 值 。 为 了 便于 理解 ,以 图 7-12 作为 一 个 卷 积 神经 网 络 的 具体 例子 , 它 由 1 个 输入 
层 、2 个 卷 积 层 ( 卷 积 运算 方式 均 为 窗 卷 积 )、2 个 池 化 层 ( 采 用 平均 池 化 方法 )、1 个 全 连接 
层 以 及 1 个 输出 层 构 成 ,下 面 将 以 这 个 具体 的 卷 积 神经 网 络 结构 为 例 来 分 析 卷 积 神经 网 
络 的 前 向 计算 输出 值 和 反 向 误差 传播 调整 权 值 与 阔 值 这 两 个 过 程 。 











输入 层 iO O 卷 积 层 C， I MERS | RG | WLS, ， 全 连接 层 ， 输出 层 ， 
F, O FPA l FA 


1 张 ` 1 2 3 个 Fimap + FC, + Dutpute - 
28X28 的 图 像 ”: 24X24 的 map : 12X12 的 map : 8X8 的 map : ， FA .Fe 个 输出 . 
: : 1 神经 元 : 单元 ， 


图 7-12 典型 的 卷 积 神经 网 络 模型 


1. 前 向 传递 计算 各 层 输 出 


Dc EB 

C 层 即 第 一 个 卷 积 层 , 图 7-12 中 卷 积 神经 网 络 的 输入 层 是 28X28 的 图 像 ,经 过 Py 
个 大 小 是 5X5 的 卷 积 核 KP (i 二 1,2,3;j 二 1,2,… ,下 ) 卷 积 后 ,生成 个 大 小 是 24X 
24 的 特征 图 。C 层 的 每 一 个 卷 积 计算 为 


CP = ( DS Xx KP roy (7-23) 
vem? 
aj? = f(CG?) (7-24) 


FER KS dan BS BU BS j 个 特征 图 与 输入 的 第 i 个 特征 图 之 间 相 连 的 卷 积 核 。 
O° 表示 第 一 个 卷 积 层 第 j 个 特征 图 的 阔 值 项 。M? 表示 在 上 一 层 的 特征 图 中 被 选中 进 
行 第 j 个 卷 积 运算 的 特征 图 集合 。 本 节 分 析 的 卷 积 神经 网 络 中 ,输入 层 输入 的 假定 是 一 
幅 3 通道 的 RGB PAAR ,将 每 个 通道 看 成 下 一 层 网 络 的 输入 特征 图 , 故 M = {1.2.3} G= 
1,2,…,F)。f/(。) 表 示 激 活 函 数 ,a;” 表 示 第 一 个 网 络 层 第 j 个 特征 图 。 
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DSB 
S: 层 将 C 层 卷 积 计算 后 的 特征 图 进行 池 化 。 设 池 化 窗口 大 小 为 2X2, 窗 口 移动 步 
幅 大 小 是 2, 将 大 小 是 24X24 的 特征 图 池 化 成 大 小 是 12X12 的 特征 图 ,特征 图 的 数量 和 
S: 层 数量 一 样 。S, 层 的 计算 输出 值 的 方式 为 
S =p? down(a ) +b (7-25) 
a? = f(S) (7-26) 
FOP BO MOS? 表示 第 二 个 网 络 层 ( 池 化 层 ) 第 j ERIE E hi A FAE, fC) RR 
一 个 非 线 性 映射 函数 。 
3) G 层 
Cs 层 将 S: 层 降 采样 及 非 线 性 映射 后 的 特征 图 进行 卷 积 操作 。 该 层 使 用 F 个 大 小 
为 5X5 WB KP G=1,2.0° ,Fs;j 二 1,2,…,F;) 对 S: 层 中 的 特征 图 做 卷 积 运算 ,得 
到 F, 个 大 小 是 8X8 的 特征 图 。C; 层 的 卷 积 计算 的 输出 值 为 


CP = ( Da? XKP JHP (7-27) 
aa = aey (7-28) 


4) S, Æ 
Si 层 将 Cs 层 卷 积 运算 后 的 特征 图 池 化 。 池 化 窗口 大 小 为 2X2, 窗 口 移动 步 幅 大 小 
为 2, 将 大 小 为 8X8 的 特征 图 池 化 为 大 小 为 4X4 的 特征 图 ,特征 图 的 数量 和 Cs 层 数 量 
FE. Sy 层 的 计算 输出 值 的 方式 为 
Ss = B® downla®) +6 (7-29) 
as? = f(s) (7-30) 
5) FC; Æ 
FC; 是 全 连接 层 , 该 层 是 一 个 与 普通 前 馈 神 经 网 络 一 样 的 前 向 全 连接 层 。 在 卷 积 和 
池 化 操作 全 部 完成 以 后 ,由 于 得 到 的 特征 图 仍然 是 二 维 (2D) 图 ,因此 需要 将 这 些 特征 图 
按 顺 序 先 变 成 一 维 向 量 , 然 后 再 作为 全 连接 层 的 输入 。 在 FC5 层 一 共有 Fs 个 神经 元 ,该 
层 网 络 的 权 值 为 wP (二 1,2,…,F; ;i 二 1,2,…,4X4XF) ,rw 表示 的 当前 层 的 第 j 个 
神经 元 与 上 一 层 第 i 个 神经 元 相连 的 权 值 。FCs 层 计算 输出 值 的 方式 为 
FCP = (Dw? x zh ) 十 59 (7-31) 


a® = (FC ) (7-32) 
6) Output; 层 
Outputs 输出 层 的 神经 元 的 数量 与 要 分 类 的 数目 有 关系 ,图 7-11 中 的 卷 积 神经 网 络 
结构 中 类 别 数目 是 Fy , 故 这 一 层 的 神经 元 的 数量 是 Fe 个 ,这 一 层 网 络 的 权 值 为 zj G= 
1,2,…,Fe;i 一 1,2,…,Fs)。Outputs 层 计算 输出 值 的 方式 为 
Output? = (Dw xa )+6® (7-33) 


oS = (Output ) (7-34) 
卷 积 神经 网 络 的 反 向 传播 过 程 本 质 上 与 传统 的 BP 神经 网 络 基 本 一 致 ,两 种 神经 网 络 
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均 是 使 用 梯度 下 降 的 方法 来 更 新 网 络 中 的 权 值 和 阔 值 。 但 是 它们 之 间 最 主要 的 区 别 在 于 卷 
积 神经 网 络 是 部 分 连接 ,而 传统 的 BP 神经 网 络 是 全 连接 。 因 此 卷 积 神经 网 络 在 反 向 关于 
连接 权 求 导 的 过 程 中 需要 明确 参数 连接 了 哪些 神经 元 ;而 全 连接 的 传统 BP 神经 网 络 中 相 
邻 的 两 层 的 神经 元 都 是 全 部 相关 联 的 ,因此 反 向 求 导 时 相对 来 说 是 十 分 简单 的 。 下 面 将 按 着 
与 上 述 正 向 传导 计算 输出 值 方向 相反 的 方向 传递 误差 来 调整 各 层 之 间 的 相连 权 值 和 阔 值 。 


2. 误差 反 向 传递 调整 网 络 参 数 


假设 当前 全 连接 层 为 ,下 一 个 全 连接 层 为 /十 1, 上 一 个 全 连接 层 为 /一 1, 则 从 /一 1 
到 71 层 有 
a? = fi?) = S((Qwire? +o") (7-35) 


卷 积 神经 网 络 的 全 连接 层 反 向 调节 过 程 和 BP 神经 网 络 的 反 向 调节 过 程 是 一 样 的 ， 
SH Ah A FE BER 
D 卷 积 层 误差 及 卷 积 核 的 梯度 
假设 当前 卷 积 层 为 !, 下 一 层 为 池 化 层 ! 十 1, 上 一 层 也 为 池 化 层 /一 1, 那 么 从 /一 1 层 
到 ! 层 有 
aP = ful?) = f(D) al KP HP) (7-36) 
i€M, 


在 反 向 传播 计算 当前 卷 积 层 / 每 个 神经 元 的 误差 6 时 ,都 需要 清楚 当前 L 层 的 输入 特 
征 图 中 的 哪个 区 域 块 与 /十 1 层 的 哪个 输出 特征 图 中 的 神经 元 相连 接 , 将 与 /十 1 层 相 连 
的 神经 元 对 应 的 误差 $ 加 起 来 求 和 ,并 乘 以 相应 连接 的 权 值 ,然后 再 乘 以 ! 层 对 应 神经 元 
的 激活 函数 的 导数 ,这 样 就 得 到 当前 / 层 每 个 神经 元 对 应 的 误差 $。 由 于 卷 积 层 后 面 为 池 
化 层 , 这 就 使 得 池 化 层 中 的 每 个 神经 元 对 应 的 误差 $ 都 是 与 卷 积 层 中 的 一 块 区 域 的 神经 
元 的 输出 相关 联 ,因此 卷 积 层 的 一 个 神经 元 只 与 池 化 层 的 一 个 神经 元 相关 联 , 而 为 了 更 加 
方便 地 计算 当前 卷 积 层 ! 的 误差 6, 可 以 先 对 下 一 层 池 化 层 的 由 各 个 神经 元 对 应 的 误差 6 
构成 的 误差 矩阵 进行 上 采样 ,使 得 ! 层 和 /十 1 层 的 误差 矩阵 大 小 相同 ,然后 只 需要 用 /十 
1 层 经 过 上 采样 误差 矩阵 与 相应 的 ! 层 的 每 个 神经 元 激活 函数 求 导 构成 的 导数 值 矩 阵 逐 
元 素 相 乘 ,再 乘 以 相应 的 连接 权 值 ,就 可 以 得 到 当前 卷 积 层 ! 中 每 个 特征 图 对 应 的 误差 矩 
阵 。 具 体 公式 如 下 : 
DP = CF Cus?) © up?) (7-37) 
其 中 ,“。” 表 示 逐 对 元 素 相 乘 (element-wise multiplication), up(。) 表 示 上 采样 
(upsampling) 操 作 , 上 采样 操作 表达 式 如 下 : 
up(x) = x © lw 


win x=| | 4 | ERE A AR EE 2X 2 BO 
均值 池 化 , 则 有 


BER 
iZ i) 3-2-2 
o|; Wels s 44 
3344 
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ii 应 的 误差 $ 后 ,就 可 以 计算 每 个 偏 置 的 梯度 : 
ar = D OPa (7-38) 


其 中 uv 取 值 范围 就 是 从 1 开始 依次 到 当前 层 特征 图 的 行列 数 。 

由 于 卷 积 神经 网 络 中 很 多 连接 的 权 值 是 共享 的 ,因此 ,对 于 一 个 给 定 的 权 值 ,只 需 
heen ee por ied 
E EE AT 


A =z Cw CDEP 0 (7-39) 


HP) o BARTEL 层 的 第 7 个 特征 图 中 a z) 位 置 的 神经 元 输入 值 的 时 候 , 上 一 
层 第 ;个 特征 图 xf” 在 进行 卷 积 操作 时 与 卷 积 核 玉 史 逐 元 素 相 乘 的 一 个 区 域 块 。 
上 面 的 公式 在 MATLAB 中 仅 需 要 使 用 如 下 卷 积 函数 来 实现 即 可 : 


IK? = rot180(conv2(a!” ,rot180(892 ), valid) (7-40) 
2) 池 化 层 误 差 及 权 值 的 梯度 
假设 当前 池 化 层 为 1, 如 果 连 接 当 前 池 化 层 的 下 一 层 是 全 连接 层 , 则 就 可 以 直接 使 用 
BP 神经 网 络 的 推导 方法 来 推导 当前 池 化 层 每 个 神经 元 的 误差 8。 现在 只 讨论 下 一 层 /十 
1 层 为 卷 积 层 , 上 一 层 /一 1 层 也 为 卷 积 层 的 情形 。 在 这 种 情形 下 ,当前 池 化 层 1 的 计算 输 
出 值 方式 为 
aP = f(B? downlaf™™®) + bf? ) (7-41) 
其 中 down(，) 表 示 池 化 操作 , 即 降 采 样 (不 重合 等 区 块 划分 后 平均 ) 。 
前 面 在 计算 卷 积 核 的 梯度 时 ,必须 清楚 当前 L 层 的 输入 特征 图 中 的 哪个 区 域 块 与 /十 
1 层 的 哪个 输出 特征 图 中 的 哪个 神经 元 相连 接 。 同 理 ,在 反 向 调节 的 过 程 中 也 必须 找到 
当前 L 层 的 误差 矩阵 中 哪个 区 域 块 对 应 下 一 层 的 误差 矩阵 中 的 哪个 位 置 的 误差 ,将 下 一 
层 的 误差 反 向 加 权 传 播 , 对 应 下 面 的 计算 公式 就 能 简单 计算 。 因 此 ,这 个 过 程 也 需要 乘 以 
输入 区 域 与 输出 神经 元 之 间 的 连接 权 值 ,而 这 个 权 值 就 是 旋转 后 的 卷 积 核 
62 = f Cul?) © conv2 (8f? .rotl80(K$*” ), full’) (7-42) 
上 式 在 通过 补 0 方式 进行 全 尺寸 卷 积 计算 时 ,需要 对 卷 积 核 进行 旋转 180°, ROBE AT VA. 
让 卷 积 运算 与 误差 反 向 传播 的 加 权 计 算 对 应 。 而 且 , 对 当前 1 层 进行 前 向 卷 积 运算 为 罕 
卷 积 运 算 ,因此 在 反 向 传播 误差 的 过 程 中 , 则 先 需 要 对 /十 1 层 的 误差 矩阵 边界 用 0 填充 ， 
使 得 (+1 层 的 误差 矩阵 的 大 小 和 7 层 的 特征 图 的 大 小 相同 再 卷 积 ,这 就 是 宽 卷 积 运算 。 
在 MATLAB 中 对 矩阵 进行 宽 卷 积 运算 的 函数 为 conv2(X,Y,'full) ,不 仿 在 此 处 采用 这 
种 表达 。 
在 得 到 当前 层 的 误差 矩阵 后 ,就 可 以 对 当前 层 的 权 值 和 浆 值 项 的 梯度 进行 计算 。 计 
算 池 化 层 1 的 阔 值 项 的 梯度 和 前 面 计算 卷 积 层 的 梯度 一 样 , 只 需要 将 误差 矩阵 中 的 误差 
相 加 即 可 : 


au = 2 Ge (7-43) 
在 正 向 传导 的 过 程 中 ,当前 池 化 层 / 中 的 参数 有 还 涉及 原始 降 采 样 特征 图 的 计算 , 因 
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此 可 以 在 正 向 传导 计算 的 过 程 中 直接 保存 那些 降 采 样 特征 图 ,在 反 向 传播 时 就 不 需要 再 
重新 计算 一 遍 , 降 采样 公式 如 下 : 





dP = down(af 和 7 ) (7-44) 
由 此 可 得 参数 8 梯度 为 
a = 2) OP e dw (7-45) 
ij uv 


3. 春 积 神经 网 络 (CNN) 的 训练 算法 描述 
卷 积 神经 网 络 (CNN) 的 训练 算法 描述 如 下 。 


算法 7-6 卷 积 神经 网 络 训练 过 程 
输入 : 训练 集 X= (Carr oy) Cay) r Em Yn) ,网 络 的 学 习 率 ,每 批 训练 样本 的 数量 batch_ 
size, 网 络 和 迭代 次 数 iter 
输出 : 训练 完成 的 卷 积 神经 网 络 模型 (网 络 结构 与 参数 ) 
oR: 
1: GE CO + 1) FE FEL PS Bei BL A AE P e A AEL AN P fE 
2: repeat 
3: 将 整个 训练 集 X HE batch_size 大 小 随机 划分 成 N 批 
4 fori = 1 > N do 
5: 根据 当前 网 络 的 参数 和 式 (7-23) , 式 (7-34) 正 向 传播 计算 每 批 样本 的 输出 o; 
6 根据 式 (7-10) 至 式 (7-13) 计 算 网 络 中 全 连接 层 的 权 值 和 阔 值 的 梯度 
7 根据 式 (7-38)、 式 (7-39) 和 式 (7-43) 至 式 (7-45) 依 次 反 向 计算 网 络 中 卷 积 和 池 


化 层 的 权 值 及 阔 值 梯度 
8: 根据 式 (7-22) 更 新 整体 网 络 中 的 权 值 和 阔 值 
9: end for 


10; until 迭代 次 数 达到 iter 


7.5.4 CNN 网 络 构造 的 案例 分 析 


AlexNet 是 Krizhevsky 和 Hinton 发 表 在 NIPS2012 会 议 上 的 一 篇 名 为 ImageNet 
Classification with Deep Convolutional Neural Networks 的 经 典 论文 中 提出 的 一 个 卷 
积 神经 网 络 模型 。 用 AlexNet 网 络 模型 将 ImageNet ILSVRC-2012 大 赛 中 的 150 万 张 图 
像 分 成 1000 类 ,并 最 终 以 top-5 测试 误差 率 15. 3% 取 得 了 当年 大 赛 第 一 名 的 成 绩 , 刷 新 
了 此 前 的 图 像 分 类 纪录 ,从 而 一 举 葛 定 了 深度 学 习 在 计算 机 视觉 领域 中 的 地 位 。 图 7-13 
是 AlexNet 网 络 模型 的 整体 结构 , 它 由 卷 积 层 、 池 化 层 、 全 连接 层 这 些 基本 操作 构成 ,与 
常见 的 卷 积 与 池 化 操作 成 对 出 现 不 同 .AlexNet 网 络 模型 并 不 是 每 个 卷 积 层 的 后 面 都 会 
接 一 个 池 化 层 ,为 了 避免 由 于 网 络 模型 的 复杂 度 过 高 而 产生 的 过 拟 合 问题 ,还 在 网 络 中 加 
入 了 Dropout® 操作 ,而 且 由 于 单 GPU 显存 容量 的 限制 ,整个 网 络 是 在 两 个 GPU 上 并 行 


外 ”Dropout: 在 训练 的 过 程 中 ,会 以 一 定 概率 随机 地 停止 一 部 分 神经 元 工作 ,从 而 减少 相 邻 层 神经 元 之 间 的 固定 
连接 权 作用 ,提高 整个 网 络 模型 的 泛 化 能 力 。 
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图 7-13 AlexNet 网 络 模型 


整个 AlexNet 网 络 模型 是 一 个 8 层 的 网 络 模型 ,其 中 前 5 层 的 卷 积 层 和 后 3 层 是 全 
连接 层 , 最 后 一 个 全 连接 层 的 输出 对 应 到 一 个 具有 1000 个 输出 单元 的 SoftMax 层 用 于 
分 类 。AlexNet 网 络 模型 中 的 第 2.4.5 个 卷 积 层 只 与 驻 留 在 相同 GPU 中 的 上 一 层 的 特 
征 图 相连 接 , 在 模型 构造 时 约束 第 3 个 卷 积 层 则 与 第 2 个 卷 积 层 中 的 所 有 特征 图 相连 接 。 

整个 AlexNet 网 络 模 型 输入 的 是 大 小 为 224X224 的 3 通道 图 像 , 在 经 过 第 1 个 卷 积 
层 的 96 个 大 小 是 11 X11X3 和 移动 步 幅 是 4 个 像素 的 卷 积 核 卷 积 后 ,得 到 96 个 大 小 是 
55X55 的 特征 图 。 然 后 用 重 释 最 大 池 化 的 方法 对 第 1 个 卷 积 层 的 96 个 特征 图 进行 池 
化 ,得 到 大 小 是 27X27 的 特征 图 ,将 这 些 特征 图 作为 第 2 个 卷 积 层 的 输入 ,然后 用 256 个 
移动 步 幅 是 1, 大 小 是 5X5X48 的 卷 积 核 进行 宽 卷 积 , 得 到 256 个 大 小 是 27X27 的 特征 
图 。 然 后 再 用 重 释 最 大 池 化 的 方法 对 第 2 层 的 256 个 特征 图 进行 池 化 ,得 到 256 个 大 小 
是 13X13 的 特征 图 ,将 这 些 特征 图 作为 第 3 个 卷 积 层 的 输入 ,用 384 个 移动 步 幅 是 1 ,大 
小 是 3X3X256 的 卷 积 核 进行 宽 卷 积 , 得 到 384 个 大 小 是 13X13 的 特征 图 。 将 这 384 个 
特征 作为 第 4 个 卷 积 层 的 输入 ,用 384 个 3X3X192 卷 积 核 进行 宽 卷 积 ,得 到 384 个 大 小 
Æ 13X13 的 特征 图 ,再 将 第 4 个 卷 积 层 的 输出 作为 第 5 个 卷 积 层 的 输入 ,用 256 个 大 小 
是 3X3X192 的 卷 积 核 进行 宽 卷 积 ,得 到 256 个 大 小 是 13X 13 的 特征 图 。 然 后 再 对 这 
256 个 特征 图 做 一 次 重 和 至 最 大 池 化 操作 ,得 到 256 个 大 小 是 6X6 的 特征 图 。 最 后 将 经 过 
池 化 得 到 的 特征 图 作为 全 连接 层 的 输入 。 

除了 2012 年 的 AlexNet 网 络 模 型 , 近 几 年 还 有 很 多 以 AlexNet 网 络 模型 为 基础 进 
行 改进 得 到 的 新 的 网 络 模型 ,例如 Google 的 GoogLeNet 网 络 模 型 .牛津 大 学 的 VGG 网 
络 模型 .微软 研究 院 的 ResNet 网 络 模 型 等 。 这 些 新 改进 的 网 络 相 比较 而 言 则 有 更 深 的 


O EARKI: 在 AlexNet 网 络 中 , 池 化 窗口 大 小 是 3X3, 而 移动 的 步 幅 大 小 是 2, 因 此 每 两 个 相 邻 的 池 化 窗 
口 之 间 都 有 一 部 分 重 又 的 像素 或 者 神经 元 。 
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网 络 层次 结构 ,对 图 像 的 识别 准确 率 也 更 高 。 


76 深度 学 习 开源 框架 


7.6.1 开源 框架 简介 


随 着 深度 学 习 的 发 展 以 及 大 数据 / 云 计 算 时 代 的 到 来 ,一 些 开 源 的 深度 学 习 框 架 已 
被 用 于 处 理 大 型 的 复杂 任务 。 下 面 简 介 几 种 目前 比较 主流 的 深度 学 习 框架 ,分 别 是 
Caffe, Tensorflow, Theano, Torch, MXNet 和 DeepLearnToolBox。 它 们 的 具体 情况 见 
表 7-3。 

表 7-3 几 种 主流 深度 学 习 框架 的 对 比 




















框架 开发 语言 支持 接口 平台 ”| 速度 | 灵活 性 | 文档 | 适合 模型 | 上 手 难 易 
C++,Python, 
Caffe C++ /Python | MATLAB 所 有 系统 | 快 | 一 般 | 全 面 | CNN 一 般 
Tensorflow | Cr H/Pyth ap Linux/ | 但 | 灵活 | 一 般 | CNN/RNN | 难 
ensorllow yu on C/C++ OSX 2 
Theano Python Python 所 有 系统 | 慢 | 灵活 | 一 般 | CNN/RNN 容易 
Torch C,Lua Lua/LuaJIT/C oa te | 灵活 | 全 面 | CNN/RNN | 一 般 
C+ +, Python, Fani resno 
ula, 
Julia, 
MXNet MATLAB; sA 所 有 系统 | 快 | 灵活 | 全 面 | CNN 一 般 
pt, 
Go,R,Scala GO,R,Scala 
DeepLearn- Linux/ 
C++/MATLAB |C++/MATLAB 慢 | 一 般 | 一 般 | CNN/DBN 容易 
ToolBox Windows 


























7.6.2 开源 案例 分 析 


在 深度 学 习 的 计算 机 视觉 应 用 中 ,经 常 使 用 到 的 原始 数据 是 图 像 文 件 ,图 像 文 件 格式 
一 般 是 jpg png, tif 等 ,而 且 图 像 文件 的 大 小 有 时 也 是 不 一 样 。 而 在 Caffe 的 深度 学 习 框 
架 的 数据 输入 格式 通常 是 Imdb、leveldb 等 ,此 时 就 需要 将 原始 的 图 像 文件 转化 成 适合 
Caffe 输入 的 数据 格式 。 现 具体 以 将 图 像 文件 转换 成 Imdb 格式 的 数据 为 例 。 

本 例 中 所 用 的 图 像 数据 集 是 cifar-10, 共 有 60 000 张 图 像 , 其 中 训练 集 图 像 有 50 000 
张 ,测试 集 图 像 有 10 000 张 ,整个 图 像 集中 所 有 的 图 像 可 以 分 成 10 个 类 别 。 下 面 将 
cifar-10 数据 集中 这 60 000 张 图 像 文件 转换 成 Imdb 文件 。 

通过 下 面 的 命令 ,进入 安装 好 的 caffe 目录 下 的 cifar10 文件 夹 ,然后 在 该 文件 夹 中 编 
写 网 络 的 配置 文件 和 相应 的 脚本 文件 。 


cd caffe/examples/cifar10/ 


然后 编写 一 个 脚本 程序 create_filelist. sh 用 来 生成 训练 集 图 像 和 测试 集 图 像 的 清单 
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交 件 。 
程序 清单 7-1 


# !/usr/bin/env sh 


DATA=data/cifarl0 


B72 


生成 训练 集 图 像 和 测试 集 图 像 清 单 文件 


RELA 


TARGET= examples/cifarl0 
echo "Create train.txt ..." 
mm -rf $TARGET/train.txt 
for ((i=0;i<10;++i)); 
do 
find $DATA/cifarl0 train images -name $i* .jpg | cut -d '/' \ 
-f3-5 | sed "s/$/ $i/">>$ TARGET/train.txt 
done 
echo "Create test.txt ..." 
Im -rf $TARGET/test.txt 
for ((i=0;i<10;++i)); 


do 


find $ DATA/cifarl0_test_images -name $i* .jpg | cut -d '/' \ 
-£3-5 | sed "s/$ / $i/">>$ TARGET/test .txt 


done 


echo "All done ..." 


然后 切换 到 Caffe 目录 下 ,运行 此 脚本 文件 。 最 后 得 到 的 图 像 清单 文件 如 图 7-14 


所 示 。 












AA far10) - gedit 
日 最 近 便 用 的 
会 主 文件 夹 
am cifari0_tratn_inages/2-29162. jpg 
Ham cifar1e_train_images/2-43507.jpg 
aes cifar10_tratn_images/2-47255.jpg 
cifar10_tratn_images/2-26803. jpg 
口 文档 cifar10_train_images/2-31231.jpg 
STA cifar10_train_images/2-34597.jpg 
os ctfar19_tratn .jpg 
aK cifar1e_train. .jpg 
Bawa cifar10_train. .jpg 
cifar10_train_images/2-29682.ipa 
设备 cifar10_train_images/2-19964.jpg 
© veoxanpmal cifar10_train_images/2-44181. jpg 
k cifar10_train_images/3-08161. jpg 
回 计算 机 cifar10_train_images/3-04007.jpg 
书签 cifar1e_train_images/3-21501. jpg 
cifar1e_train .jpg 
fe x-nautilus-desk cifar10_train. .jpg 
司 cifarle_train .jpg 
crm 司 cifarie_train .jpg 
i drivers ctfar1e_tratn_tmages/3-35715. Jpg 
网 络 cifar10_train_images/3-01316.jpg 
aaam 纯 文本 ， ” 制 表 符 宽度 : 8 ~ 
RIAR 





7-14 图 像 清单 文件 
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接着 再 在 cifar10 文件 夹 中 编写 一 个 create_cifarl0_Ilmdb. sh 脚本 程序 ,通过 调用 
convert_imageset 命令 将 原始 图 像 文 件数 据 转换 成 Imdb 格式 的 数据 。 编 写 完成 后 ,用 和 
运行 create_filelist. sh 文件 一 样 的 方法 运行 create_cifar10_lmdb. sh ,得 到 lmdb 格式 的 数 
48. 3847 create_cifarl0_Imdb, sh 成 功 后 ,在 cifar10 文件 下 生成 两 个 文件 夹 ,如 图 7-15 
所 示 。 











create_cifar10_lmdb. sh 脚本 文件 如 下 : wal | 
程序 清单 7-2 转换 数据 格式 ee ee 

# !/usr/bin/env sh 7-15 生成 的 两 个 装 有 训练 数据 和 
TARGET= examples/cifarl0 测试 数据 的 文件 夹 


echo "Create train Imdb ..." 

rm -rf $ TARGET/cifarl0_img train lmdb 
build/tools/convert_imageset \ 

-- shuffle \ 

--resize_height=32 \ 

-- resize_width=32 \ 
/home/shihuai02/caffe/data/cifar10/ \ 
$ TARGET/train.txt \ 

$ TARGET/cifarl0_img train lmdb 

echo "Create test Imdb..." 

Im -IE $ TARGET/cifarl0_img test lmdb 
build/tools/convert_imageset \ 

-- shuffle \ 

-- resize height=32 \ 
--resize_width=32 \ 
/home/shihuai02/caffe/data/cifar10/ \ 
$ TARGET/test.txt \ 

$ TARGET/cifarl0_img_test_lmdb 


echo "All done..." 


在 得 到 适合 Caffe 输入 的 Imdb 格式 的 数据 后 ,为 了 提高 训练 的 速度 和 准确 度 , 需 要 
对 图 像 数 据 进 行 预 处 理 , 这 里 只 进行 了 减 均值 操作 。 其 中 均值 是 通过 训练 集 图 像 得 到 ,在 
Caffe 中 ,提供 了 一 个 计算 均值 的 文件 compute_image_mean. cpp, 因 此 只 需要 直接 使 用 
即 可 : 

sudo build/tools/compute_image mean 

examples/cifarl0/cifarl0 img train Imdb les/cifar10/mean.binaryproto 

在 得 到 网 络 模型 的 输入 数据 后 , 接 下 来 开始 创建 模型 并 编写 相应 的 配置 文件 。 在 
cifar10 文件 夹 中 创建 一 个 cifar10_train. prototxt 文件 ,然后 在 该 文件 中 编写 自己 的 网 络 
模型 。 

对 于 每 个 网 络 模型 , 先 需 要 给 网 络 取 一 个 名 字 : 
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name: "CIFAR10 TRAIN" 


接 下 来 ,进行 网 络 模型 训练 的 时 候 需 要 把 cifar10 的 图 像 数据 从 Imdb 格式 的 文件 中 
读 取出 来 ,因此 首先 需要 定义 网 络 的 数据 层 , 以 定义 数据 的 读 入 方式 : 


layer { 

name: "cifar" 

type: "Data" 

top: "data" 

top: "label" 

include { 
phase: TRAIN 

$ 

transform param { 
mean file: "examples/cifarl0/mean.binaryproto" 

} 

data_param { 
source: "examples/cifarl0/cifarl0_img_train_lmdb" 
batch size: 100 
backend: LMDB 


} 
网 络 模型 中 , 卷 积 层 的 编写 格式 如 下 : 


layer { 
name: "convl" 
type: "Convolution" 
bottom: "data" 
top: "convl" 
param { 
lr mult: 1 
X 
param { 
lr mult: 2 
} 
convolution param { 
num output: 32 
pad: 2 
kernel size: 5 
stride: 1 
weight filler { 
type: "gaussian" 
std: 0.0001 
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} 
bias filler { 
type: "constant" 


池 化 层 的 编写 格式 如 下 : 


layer { 

name: "pool1" 

type: "Pooling" 

bottom: "convl" 

top: "pooll" 

pooling param { 
pool: MAX 
kernel size: 3 


stride: 2 


} 
全 连接 层 的 编写 格式 如 下 : 


layer { 
name: "ipl" 
type: "InnerProduct" 
bottom: "pool3" 
top: "ipl" 
param { 
lr mult: 1 
} 
param { 
lr mult: 2 
} 
inner_product_param { 
num_output: 64 
weight filler { 
type: "gaussian" 
std: 0.1 
} 
bias filler { 


type: "constant" 
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} 
在 网 络 中 ,ReLU 激活 函数 编写 格式 如 下 : 


layer { 
name: "relul" 
type: "ReLU" 
bottom: "pooll" 
top: "pooll" 

} 


由 于 对 cifar10 图 像 集 分 类 是 一 个 多 分 类 问题 ,因此 在 网 络 最 后 一 层 使 用 的 是 


softmax_loss 层 : 





layer { 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "ip2" 
bottom: "label" 
top: "loss" 


} 
在 编写 完 网 络 模型 文件 后 ,还 需要 编写 一 个 网 络 模型 的 配置 文件 : 


cifarl0_solver.prototxt: 

net: "examples/cifarl0/cifarl0_train.prototxt" 
test_iter: 100 

test_interval: 500 

base lr: 0.01 

momentum: 0.9 

weight decay: 0.0005 

lr policy: "inv" 

gamma: 0.0001 

power: 0.75 

display: 100 

max iter: 10000 

snapshot: 5000 

snapshot prefix: "examples/cifarl0/cifar10" 
solver mode: CPU 


在 训练 网 络 模 型 所 需要 的 训练 数据 、 网 络 模 型 的 定义 文件 网络 模 型 的 配置 文件 全 部 
准备 齐全 后 ,就 可 以 正式 开始 训练 网 络 模型 。 同 样 , 先 需 要 切换 到 Caffe 的 主 目录 下 , 然 
后 通过 下 面 的 命令 开始 训练 模型 。 图 7-16 是 网 络 开始 成 功 训练 时 显示 的 信息 。 


-/baild/tools/caffe train - - solver=examples/cifarl0/cifarl0_solver.prototxt 
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test.prototxt caffemodel solverstate caffemodel 


E cifart0.sh 











图 7-16 网 络 开始 成 功 训练 时 显示 的 信息 


77 深度 学 习 应 用 技巧 


以 下 是 关于 深度 学 习 的 一 些 技巧 。 

(1) 多 类 不 平衡 问题 。 为 了 避免 学 习 结果 更 加 趋向 某 一 类 样本 ,各 个 类 别 的 训练 样 
本 尽量 保持 平衡 。 不 平衡 类 训练 集 可 以 采用 划分 、 抽 样 等 方式 将 不 平衡 类 训练 集 变换 为 
平衡 类 训练 集 。 

(2) 样本 标签 设置 问题 。 对 于 神经 网 络 来 说 ， 人 限定 神经 元 输出 
围 为 (0,1) ,所 以 一 般 有 监督 学 习 的 情况 下 ,对 样本 的 标签 设 定 值 一 般 也 要 限定 范围 为 
(0,1) ,模型 工作 时 使 用 SoftMax 概率 值 来 识别 输出 op 

(3) 学 习 率 对 梯度 下 降 法 的 影响 问题 。 神 经 网 络 学 习 率 的 设 定 一 定 要 合适 ,不 可 太 
大 ,也 不 可 太 小 。 如 果 学 习 率 过 大 , 则 每 次 迭代 就 有 可 能 出 现 大 幅度 的 振荡 现象 ,也 可 能 
会 在 极 值 点 两 侧 出 现 发 散 , 误 差 函 数值 容易 引起 振荡 ;如 果 学 习 率 太 小 .误差 函数 下 降 得 
很 慢 , 导 致 收敛 速度 过 慢 。 所 以 ,对 于 网 络 的 学 习 率 一 般 都 会 选择 (0,1) 范 围 内 的 一 个 合 
适 值 ,比如 0. 0001,0. 001,0. 01 和 0.1 等 ,具体 需要 根据 具体 实验 中 的 情况 来 选择 一 个 合 
适 的 值 。 

(4) 大 规模 训练 样本 的 随机 打 乱 问题 。 大 数据 集 的 深度 学 习 时 一 般 采 用 分 批 的 方式 
进行 ,往往 没有 打 乱 训练 样本 的 时 候 , 模 型 学 习 的 过 程 中 ,后 面 的 样本 学 习 逐 渐 履 盖 前 面 
样本 学 习 到 的 网 络 权 值 .使 得 它 的 学 习 结果 更 趋向 于 最 后 学 习 的 类 别 。 虽 然 通过 大 量 训 
练 迭 代 轮 数 可 以 相对 缓和 ,但 是 也 不 如 随机 打 乱 样本 后 训练 更 稳定 。 
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(5) 网 络 层次 结构 和 选 代 次 数 的 设计 问题 。 多 少 层 网 络 算 深 度 学 习 ? 多 少 次 迭代 才 
算 合理 ? 当前 多 数 分 类 、 回 归 等 学 习 方法 为 浅 层 结构 算法 ,其 局 限 性 在 于 有 限 样本 和 计算 
单元 情况 下 对 复杂 函数 的 表示 能 力 有 限 , 针 对 复杂 分 类 问题 其 泛 化 能 力 受 到 一 定制 约 。 
深度 学 习 必须 依照 实际 情况 控制 网 络 结构 和 训练 迭代 次 数 , 多 方面 控制 模型 参数 ,尤其 是 
在 大 规模 数据 的 任务 处 理 中 更 要 如 此 。 

(6) 训练 过 程 中 目标 函数 梯度 问题 。 通 常 采 用 的 随机 梯度 下 降 (SGD) 策 略 是 由 于 所 
有 训练 样本 的 梯度 下 降 法 收敛 速度 慢 ,通过 随机 选择 训练 集 的 一 个 子 集 ,计算 该 子 集 的 网 
络 输出 与 真实 输出 的 平均 误差 梯度 并 调整 相应 的 权 值 。 可 以 看 作对 每 个 单独 的 训练 子 
集 定义 不 同 的 误差 函数 。 标 准 梯度 下 降 策略 是 计算 所 有 训练 样本 总 误差 的 梯度 来 更 
新 权 值 ,而 随机 梯度 下 降 的 权 值 是 通过 考查 训练 集 的 某 个 子 集 来 更 新 的 网 络 权 值 ; 标 
准 梯度 下 降 中 权 值 更 新 的 每 一 步 对 所 有 样本 计算 误差 , 比 随机 梯度 需要 更 多 的 计算 
量 ;标准 误差 曲面 有 多 个 局 部 极 小 值 ,随机 梯度 下 降 可 能 避免 陷入 这 些 局 部 极 小 值 和 
提高 泛 化 能 力 。 

(7) Dropout 技巧 的 使 用 问题 。 为 了 减少 神经 网 络 的 过 拟 合 ,通常 还 可 以 在 网 络 中 
加 入 Dropout 层 。 在 网 络 训练 的 时 候 ,Dropout 以 一 定 的 概率 随机 地 抑制 一 些 神经 元 的 
输出 ,使 得 网 络 中 的 神经 元 在 每 次 训练 的 时 候 并 不 是 总 是 依赖 于 上 一 层 固定 的 几 个 神经 
元 的 输出 ,从 而 使 整个 网 络 模型 的 泛 化 能 力 大 为 增强 。 


78 小 结 


本 章 首先 简单 分 析 了 深度 学 习 的 发 展 ,其 次 针对 几 种 典型 的 深度 学 习 模 型 展开 了 详 
细 介 绍 。 再 次 ,介绍 了 近年 来 比较 主流 的 几 种 深度 学 习 开 源 框架 并 给 出 了 案例 分 析 。 最 
后 ,在 深度 学 习 的 应 用 方面 也 给 出 了 几 点 建议 。 下 面 对 几 种 模型 进行 小 结 : 

深信 网 (DBN) 是 层 层 堆 释 多 个 RBM 组 成 的 深 网 络 , 训 练 过 程 分 为 两 个 阶段 ,首先 通 
过 RBM 预 训练 ,从 输入 层 开始 逐 层 为 每 组 找到 其 局 部 最 好 参数 的 初始 设置 ,然后 再 基于 
这 些 预 训练 的 RBM 连接 起 来 构建 整体 深 网 络 并 采用 随机 梯度 进行 全 局 微调 。 

深 玻 尔 兹 曼 机 (DBM) 借 鉴 了 能 量 模型 RBM 的 基本 思想 , 它 是 一 种 通过 增加 RBM 
的 隐 层 数量 而 构造 的 深 网 络 ,能 够 通过 Gibbs 抽样 模拟 复杂 数据 的 内 在 特征 ,学 习 过 程 同 
RBM 相似 ,但 是 网 络 层次 增多 ,计算 量 较 大 。 

栈 式 自动 编码 器 (SAE) 通 过 组 合 多 个 三 层 “ 自 动 编码 "网络 而 构造 深 网 络 ,首先 逐 层 
贪 禁 预 训练 ,每 一 个 三 层 网 络 的 自 监督 学 习 过 程 同 BP 算法 一 致 。 预 训练 完成 后 对 整个 
网 络 进行 双向 展开 ,再 运用 BP 算法 进行 整体 微调 。 

卷 积 神经 网 络 (CNN) 是 针对 二 维 数据 而 设计 的 一 种 模拟 “局 部 感受 时 ”的 局 部 连接 
的 神经 网 络 结构 ,引入 卷 积 运算 实现 局 部 连接 和 共享 权 值 的 特征 提取 ,引入 池 化 操作 实现 
低 功 耗 计算 和 高 级 特征 提取 ,网 络 构 造 通过 多 次 卷 积 和 池 化 过 程 来 形成 深 网 络 ,网 络 的 训 
练 含有 “ 权 共 享 " 和 “ 稀 玖 ”特点 ,学 习 过 程 类 似 于 BP 算法。 
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79 J 题 


1. 下 载 MNIST 手写 体 数 据 集 , 利 用 深度 学 习 开 源 代码 ,自己 分 别 设计 一 个 深信 网 、 


栈 式 自动 编码 器 和 卷 积 神经 网 络 ,并 分 别 进行 实验 测试 与 对 比 。 








2. 试 推导 RBM 的 参数 更 新 公式 (7-5) 。 

3. 试 推导 卷 积 神经 网 络 的 卷 积 层 和 池 化 层 的 参数 更 新 公式 。 
4. 设计 针对 视频 数据 的 卷 积 神经 网 络 。 

5. 实验 深度 学 习 的 GPU 环境 下 的 平台 搭建 。 

6. 实验 对 比 深度 学 习 的 各 种 训练 技巧 对 深 网 络 性 能 的 影响 。 
7. 深度 学 习 如 何 解 决 大 数据 分 析 与 处 理 问 题 ? 

8. 研究 Denoising Autoencoder 模型 。 

9. 研究 卷 积 深信 网 。 

10. 研究 时 序数 据 的 深度 学 习 训练 与 特征 提取 。 
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第 留意 
R 语 言 


R 语言 是 用 于 统计 分 析 ,绘图 的 语言 和 操作 环境 , 它 是 属于 GNU 系统 的 一 个 自由 、 
免费 、 源 代码 开放 的 软件 。 编 译 和 运行 在 各 种 各 样 的 UNIX、Linux、Windows 和 MacOS 
平台 。 从 本 质 上 讲 ,R 语言 是 S 语言 的 一 种 实现 。S 语言 是 由 AT&T 贝尔 实验 室 开发 的 
一 种 用 来 进行 数据 探索 .统计 分 析 和 绘图 的 解释 型 语言 。R 语言 最 初 由 新 西 兰 奥克兰 大 
学 的 Robert Gentleman 和 Ross Ihaka 开发 ,现在 由 *R 核心 团队 ”负责 开发 。 截 至 2016 
年 6 月 ,R 语 言 最 新 的 版 本 为 3. 3. 1。 它 包含 一 套 连 贯 完整 的 数据 分 析 处 理 算 法 、 统 计 分 
析 计 算 和 统计 制图 可 视 化 软件 工具 。 

本 章 从 有 语言 的 下 载 安装 (8. 1 节 ) 开 始 , 然 后 学 习 R 语言 的 基本 技术 ,包括 最 常用 
的 运行 R 语言 .R 语言 常用 操作 、 包 的 使 用 (8. 2 节 ),R 语言 的 常用 数据 结构 (8. 3 节 ),R 
语言 的 编程 结构 (8.4 节 ), 以 及 R 语言 的 数据 挖掘 和 图 形 绘制 包 介绍 (8. 5 节 ), 最 后 给 出 
一 个 使 用 R 语言 完成 从 数据 准备 预 处 理 到 数据 分 析 的 具体 案例 ,使 读者 能 够 熟悉 使 用 R 
语言 做 数据 分 析 的 整个 过 程 。 


81 下 载 和 安装 RBS 


本 节 给 出 R 语 言 的 下 载 方法 及 其 安装 过 程 ,为 读者 学 习 R 语言 建立 环境 。 首 先 描 述 
R 语言 的 下 载 ,然后 描述 R 语言 的 安装 。 


8.1.1 下 载 R 语 言 


HE R 语言 的 官方 网 站 上 可 以 下 载 R 语言 的 源 代 码 和 UNIX, Linux, Windows, 
MacOS 平台 的 编译 好 的 二 进 制版 本 .下载 地 址 是 http://www. r-project. org/ 的 CRAN 
(Comprehensive R Arichive Network) 栏 目下 。 首 先 选择 在 China 的 镜像 服务 器 ,以 获取 
最 快 的 下 载 速度 ,选择 Download R for Windows, 再 选择 base。 本 书 使 用 的 R 语言 版 本 
为 3. 3. 1 ,文件 名 为 R-3. 3. 1-win. exe, 根 据 自己 的 计算 机 操作 系统 体系 结构 的 不 同 , 安 装 
时 可 以 选择 32 位 或 者 64 位 版 本 ,大 小 约 70MB, 如 图 8-1 所 示 。 


8.1.2 安装 RR 语言 


运行 下 载 的 R-3. 3. 1-win. exe, 在 弹出 的 “安全 警告 ”对话 框 中 , 单 击 “ 运 行 ”按钮 ,如 
图 8-2 所 示 。 


Bez 


m 








Download R 3.3.1 for Windows (70 megabytes, 32/64 bit) 


R-3.3.1 for Windows (32/64 bit) 








图 8-1 R 语言 的 Windows 安装 程序 


弹出 “选择 语言 "对 话 框 ,使 用 默认 的 “中 文 (简体 )”, 单 击 “ 确 定 ” 按 钮 ,如 图 8-3 所 示 。 








发 行商 ， 未 知 发 布 者 
类 型 ， 应 用 程序 


(nae -ee =) 
无 法 验证 发 布 者 。 您 确定 要 运行 此 软件 四? 
名 称 : .学 险 \ 大 数据 乔 训 分 析 与 处 理 \R-3.3.1-win exe 


发 送 方 ，D:\ 快 盘 \2015-2016 第 二 学 期 \ 大 数据 智能 分 析 .… 





Li® |] 





取消 








i 























图 8-2 安全 警告 对 话 框 


19 2S -R for Windows 3.3.1 









选择 语言 
m) ##xarenee- 


TS 








图 8-3 “选择 语言 "对 话 框 
在 “安装 向 导 ” 的 欢迎 界面 中 , 单 击 * 下 一 步 ?按钮 ,如 图 8-4 所 示 。 





ARER for Windows 3.3.1 安 装 向 


ASSRECHABLRMR for Windows 3.3. 1 
建议 人 在 总 给 之 前 关闭 其 他 所 有 应 用 程序 . 
点 击 “ 下 一 步 ” BE. RRR” BHRRAS. 





图 8-4 “安装 向 导 ” 界 面 


在 安装 向 导 的 “信息 ”界面 中 ,阅读 GNU 通用 公共 许可 证 , 单 击 “ 下 一 步 ” 按 钮 ,如 


图 8-5 所 示 。 


因 R 语言 整体 系统 较 小 ,使 用 默认 目录 C:\Program Files\R\R-3. 3. 1 进行 安装 , 单 


击 “ 下 一 步 ?按钮 ,如 图 8-6 所 示 。 


在 “选择 组 件 ” 界 面 中 ,根据 计算 机 操作 系统 体系 结构 ,本 书 中 选择 “64-bit 用 户 安 


装 ”, 单 击 “ 下 一 步 ” 按 钮 ,如 图 8-7 所 示 。 


在 “启动 选项 ”界面 中 ,采用 默认 选项 No, 单 击 * 下 一 步 ?按钮 ,如 图 8-8 所 示 。 
在 “选择 开始 菜单 文件 夹 " 界 面 中 采用 默认 的 R, 单 击 “ 下 一 步 ” 按 钮 ,如 图 8-9 所 示 。 
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DARRERA 
















信息 
请 亲 冰 以 下 重要 们 息 再 进入 下 一 步 - 





准备 好 备 绽 安装 后 点击“ 下 一 步 ”. 


GNU GENERAL PUBLIC LICENSE 
Version 2, June 1991 


Copyright (C) 1989, 1991 Free Software Foundation, Inc. 
51 Franklin St, Fifth Floor, Boston, MA 
110-1301 USA 
Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing it is not allowed. 


Preamble 





Gao} 











图 8-5 GNU 通用 公共 许可 证 


将 R for Windows 3.3. 1 安装 到 何 处 2 





bh RAMSAR for Windows 3. 3. 1 实 装 到 以 下 文件 中 - 


点 击 “ 下 一 步 ” 赣 缤 。 如 果 佬 要 选择 不 同 的 文件 夹 ， 请 点 击 “ 浏 览 ”. 
[C:\Program Files\R\R-3. 3. 1 ] 





必须 至少 有 1. AFF OO) 的 闲置 磁盘 空间 . 








8-6 选择 安装 位 置 


选择 组 件 
zst? 





请 选 抒 妥 去 区 的 组 件 ， 清 除 不 要 安装 的 组 件 。 准 备 好 后 点 击 “ 下 一 步 ”- 
2 


国 Core Files 66. 8 光 字 节 (MB) 
贺 32-bit Files 43. 8 兆 字 节 (M5) 

64-bit Files 44. ARES (MB) 
国 Message translations 了 -3 兆 字 节 OB) 


























目前 所 选 组 件 要 求 至 少 119. SASS OS) MAFA. 


区 SBJCEE2W > (xa) 





图 8-7 “选择 组 件 ?界面 


See RS 














图 8-8 “启动 选项 ”界面 


RFRA KAR 
把 程序 快捷 方式 放 到 哪里 ? 





ay RRASHEUTHSRATA SURAT RETR. 


AE T- BE. WHRABA—TAGR. AE “MHA”. 
E] 














8-9 “选择 开始 菜单 文件 夹 ”界面 


在 “选择 附加 任务 ”对 话 框 中 ,选择 “创建 桌面 快捷 方式 “版 本 信息 保存 于 注册 表 内 ” 
和 “把 R 程序 同 . RData 文件 联合 起 来 " 复 选 框 , 单 击 “ 下 一 步 ”按钮 ,开始 R 的 安装 ,如 
8-10 所 示 。 





9 安装 向 导 - R for Windows 3.3. 


ARMES 
ShPSERMES? 








请 选择 安装 R for Windows 3.3. IH RRRGHHWES. MEAE “F—-B. 











图 8-10 “选择 附加 任务 界面 
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R 语言 的 安装 会 根据 计算 机 人 性 能 不 同 ,花费 几 十 秒 到 几 分 钟 时 间 ,如 图 8-11 所 示 。 


i) EEAS -R for Windows 3.3.1 = 
正在 安装 


















BOR. LAASESSHSRLSSR for Windows 3.3. 1. R 
正在 取出 文件 … 
C:\Program Files\R\R-3. 3. 1\1ibrary\compiler\tests\const.® 


一 一 人 

















图 8-11 正在 安装 R 


当下 程序 安装 完成 后 ,会 看 到 如 图 8-12 所 示 的 界面 , 单 击 “ 结 束 ” 按 钮 完成 安装 。 
选择 “开始 ”>“ 所 有 程序 ”>R 命令 ,可 以 看 到 及 语言 的 选项 ,如 图 8-13 所 示 。 





D SAS -R for Windows 33.1 





R for Windows 3.3.1 安 装 完成 


WER for Windows 3.3.1. TOLI 
此 应 用 程序 . 








B&R 
RR x64 3.3.1 


图 8-12 R 语 言 安装 完成 图 8-13 R 程序 选项 
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本 节 给 出 R 语言 启动 运行 .R 语言 的 常用 操作 及 其 包 的 使 用 ,为 读者 使 用 R 语言 进 
行程 序 开 发 打下 基础 。 首 先 描 述 R 语言 的 启动 运行 方法 ,然后 描述 R 语 言 的 常用 操作 及 
日 常 命令 ,最 后 描述 R 语言 包 的 使 用 方法 。 

8.2.1 运行 RR 语言 

选择 “开始 ”>“ 所 有 程序 ”一 R 一 R x64 3. 3. 1 命令 ,启动 R 语言 的 RGui 图 形 控制 
台 , 如 图 8-14 所 示 。 

与 很 多 编程 软件 的 界面 相似 ,R 语言 的 界面 由 菜单 ,快捷 按钮 和 主 窗口 (R Console) 


| 292 





R version 3.3.1 (2016-06-21) -- "Bug in Your Hair" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86_64-w64-mingw32/x64 (64-bit) 


R 是 自由 软件 ， 不 带 任何 担保 - 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 . 
用 'license() ' 或 '1icence () ' 来 看 散布 的 详细 条 件 . 


R 是 个 合作 计划 ， 有 
用 'contributors() ' 来 看 合作 : 
Fatcitation()* | 
用 'demo () ' 来 看 一 些 示 范 程序 ， 用 'help() ' 来 阅读 在 线 帮助 文件 ,或 
p; mp0 通过 arxr 浏 览 器 来 看 帮助 文件 - 

‘aot 


>| 





图 8-14 RGui 3. 3. 1 启动 界面 








组 成 。 主 窗口 既是 命令 输入 窗口 ,也 是 部 分 运算 结果 的 输出 窗口 ,有 些 图 形 的 运算 结果 会 
在 新 建 的 窗口 中 输出 。 主 窗口 上 方 的 文字 是 刚 进入 R 语言 环境 的 一 些 版 本 说 明 、 软 件 授 
权 介 绍 及 指引 ,文字 下 的 “二 "符号 是 R 语言 的 命令 提示 符 , 在 其 后 可 输入 命令 。 

在 有 语言 简单 而 朴素 的 界面 下 ,是 丰富 且 复杂 的 运算 功能 和 完善 的 绘图 功能 。 最 重要 
的 一 点 是 : R is free。 这 里 的 free 不 仅仅 是 免费 ,更 强调 “自由 ”软件 ,在 遵循 GNU 相关 授权 
许可 协议 的 基础 上 ,可 以 进行 发 布 ,在 命令 行 运 行 license() 查 看 相关 协议 ,如 图 8-15 所 示 。 





> license() 


| This software is distributed under the terms of the GNU General 
Public License, either Version 2, June 1991 or Version 3, June 2007. 
The terms of version 2 of the license are in a file called COPYING 
which you should have received with 
this software and which can be displayed by RShowDoc ("COPYING"). 
Version 3 of the license can be displayed by RShowDoc("GPL-3"). 


Copies of both versions 2 and 3 of the license can be found 
at https: //www.R-project.org/Licenses/. 


A small number of files (the API header files listed in 
R_DOC_DIR/COPYRIGHTS) are distributed under the 

LESSER GNU GENERAL PUBLIC LICENSE, version 2.1 or later. 

This can be displayed by RShowDoc("LGPL-2.1"), 

or obtained at the URI given. 

Version 3 of the license can be displayed by RShowDoc("LGPL-3"). 





‘Share and Enjoy.' 


>| 


4 








图 8-15 R 语言 的 GNU 授权 许可 协议 
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8.2.2 了 R 语言 常用 操作 
下 面 是 R 语言 的 6 个 常用 操作 。 


1. Crl+ 上 键 
同时 按 下 Ctrl 和 工 键 ,清除 命令 窗口 显示 的 所 有 内 容 , 如 图 8-16 所 示 。 
































图 8-16 ”清除 内 容 后 的 主 窗口 


2. help 命令 
在 命令 窗口 输入 help( 函 数 名 ) , 按 回 车 执行 ,显示 对 应 函数 名 的 帮助 信息 。 例 如 ,要 
了 解 demo 函数 ,可 以 在 命令 行 输入 help(demo) , 按 回 车 执行 ,系统 打开 浏览 器 ,并 出 现 
demo 函数 的 相关 内 容 , 如 图 8-17 所 示 。 
在 帮助 窗口 中 主要 包括 如 下 6 部 分 ， 
。 Description, 函数 主要 功能 描述 。 
。 Usage, 函 数 调 用 格式 及 参数 。 
。 Arguments, 参 数 详细 解释 。 
。 Details ,函数 详细 信息 。 
。 See Also, 参 阅 与 本 函数 相关 的 其 他 函数 链接 。 
。 Examples ,函数 调用 的 例子 。 


3. s 命令 
在 命令 窗口 输入 sO , 按 回 车 执行 .显示 工作 空间 中 的 所 有 对 象 。 工 作 空 间 是 RA 





SOE RS 





RR: Demonstrations ofR x 
€ > © D 127.0.0.1:19073/library/utils/html/demo.htm| 











demo {utils} 
Demonstrations of R Functionality 


demo is a user-friendly interface to running some demonstration R scripts. demo() gives the 
list of available topics. 


Usage 


deno(topic, package = MULL, 1ib.loc = NULL, 
character. only = FALSE, verbose = getOption(“verbose"), 
echo = TRUE, ask = getOption("deno, ask”), 
encoding = getOption (“encoding”) 


Arguments: 
the topic which should be demonstrated, given as a name or literal character 


string, or a character string, depending on whether character. only is FALSE 
(default) or TRUE. If omitted, the list of available topics is displayed. 


a character vector giving the packages to look into for demos, or MLL. By 
default, all packages in the search path are used, 





8-17 浏览 器 demo 函数 帮助 窗口 


言 中 一 个 非常 重要 的 概念 ,因为 在 R 语 言 中 ,所 有 的 数据 和 函数 都 运行 在 内 存 中 ,这 部 分 
内 存 就 是 R 语言 的 工作 空间 。 

当 任 何 函数 与 数据 也 没有 运行 的 时 候 , 运 行 ls() 后 ,显示 character(0) ,工作 空间 为 
空 , 如 图 8-18 所 示 。 





character (0) 
> 





8-18 Fils 查看 为 空 的 工作 空间 


在 命令 行 运行 一 个 简单 的 赋值 语句 a 二 一 10, 把 10 赋值 给 变量 a, 再 运行 ls() 查 看 工 
作 空 间 , 如 图 8-19 所 示 。 
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图 8-19 用 1s 查 看 有 值 工作 空间 对 象 


4. rm 命令 


在 命令 窗口 输入 rm( 对 象 名 ) , 按 回 车 执行 ,删除 工作 空间 中 的 对 象 。 也 可 以 使 用 rm 
(list 二 1s() ) 来 清除 工作 空间 中 的 所 有 对 象 。 

先 运行 rm(a) 删 除 工 作 空间 中 的 对 象 ;再 运行 b 世 一 "Test" 给 变量 b 赋值 为 字符 串 
"Test" ,执行 ls 〇 命令 ,可 以 看 到 工作 空间 中 有 一 个 对 象 b; 再 运行 c 二 一 20 给 变量 c 赋值 
20, 执 行 ls 〇 命令 ,可 以 看 到 工作 空间 中 有 两 个 对 象 b 和 c; 然 后 执行 rm(list 二 1s()) 清 除 
所 有 对 象 ;最 后 执行 1s() 确 认 工 作 空间 中 的 对 象 都 被 删除 了 。 整 个 过 程 如 图 8-20 所 示 。 








> rm(list=1s()) 
> 180 
character (0) 
>I 





4 





图 8-20 用 rm 删除 工作 空间 对 象 





See RS 





5. getwd 命令 


在 命令 窗口 输入 getwdO ,获取 当前 工作 目录 。 工 作 目 录 是 R 语言 中 另外 一 个 非常 
重要 的 概念 ,工作 目录 表示 当前 在 哪个 文件 夹 下 工作 。 在 存 取 文件 的 时 候 , 如 果 不 指定 路 
径 , 就 会 默认 在 这 个 文件 夹 下 进行 ,如 图 8-21 所 示 。 


G RGui (64-bi0 


ee SS 其 他 程序 包 窗口 帮助 一 一 一 一 
| 回国 加 外 可 回回 | 








> getwd() 
[1] "C:/Users/ 吴 思 远 /Documents" 


>| 








图 8-21 用 getwd 获取 工作 目录 


6. setwd 命令 


在 命令 窗口 输入 setwd (目录 ), 设 置 工作 目录 到 指定 的 路 径 。 在 命令 行 执行 
setwd("D:/ 快 盘 /2015 一 2016 第 二 学 期 /大 数据 智能 分 析 与 处 理 ") ,如 图 8-22 所 示 。 


| 文件 编辑 查看 其 他 程序 包 窗口 帮助 -一 | 
回国 可 四 加 可 回回 | 


I) > seswao 
[1] "c:/Users/ 吴 思 远 /Docume 
> me D: / REL/2015-; cones EM KSI RE SALE ) 
> 











8-22 用 setwd 设置 工作 目录 
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8.2.3 包 的 使 用 


R 语言 的 一 个 重要 特点 是 其 拥有 不 同 领域 的 专业 人 士 编写 的 软件 加 载 包 ,大 部 分 包 
可 以 从 CRAN 和 Bioconductor 上 找到 。 每 一 个 包 都 是 一 系列 函数 的 集合 ,可 能 还 带 有 数 
据说 明文 档 、 源 代码 等 。 那 么 在 CRAN 上 到 底 有 多 少 加 载 包 可 以 供 我 们 使 用 呢 ? 可 以 
在 命令 行 中 执行 ap 二 一 names(available. packages()[ ,1]), 把 可 以 使 用 的 加 载 包 赋值 给 
变量 ap ,在 连 线 选择 CRAN 镜像 服务 器 时 ,选择 China, 再 运行 ap 显示 加 载 包 名 称 和 数 
量 , 如 图 8-23 所 示 。 


文件 Mi SE 其 他 geo 窗口 em 


国 国 可 外 硬 引 加 图 








[8965] " "YaleToolkit" 
"yeinterextra” 


“zCompositions" 
"zebu" 
"ZeligChoice" 
"zendeskR" 





"zoeppritz" 
"zoo" 
"zooimage" 
"zoon" 
"ztable" 
"GLMMGibbs" 
"Rstem" 
"yags" 





图 8-23 查看 CRAN 上 可 用 加 载 包 


截至 2016 年 8 月 30 日 ,CRAN 上 可 以 加 载 的 包 有 9007 个 。 这 个 数量 是 相当 惊人 
的 。 如 果 再 加 上 Bioconductor 上 可 以 加 载 的 包 ,软件 加 载 包 的 总 量 至 少 在 1 万 以 上 。 如 
果 要 使 用 这 些 加 载 包 , 首 先 要 安装 ,在 使 用 前 要 加 载 。 


1. 包 的 下 载 和 安装 


在 命令 窗口 输入 install, packages(" 安 装 的 包 名 称 ", dependencies = TRUE) ,完成 包 
的 下 载 和 安装 。 在 命令 行 执行 install. packages ("RODBC", dependencies= TRUE), F 
载 安装 R 语言 的 数据 库 连接 包 。 如 图 8-24 所 示 。 

为 了 检查 RODBC 数据 库 连 接 包 是 否 下 载 安装 成 功 ,可 以 在 命令 行 执行 installed. 
packages()[,c("Package","Version")], 查 看 所 有 已 经 安装 的 包 , 图 8-25 PIB ER h 
的 部 分 为 已 安装 好 的 RODBC 包 。 





> install.packages ("RODBC", dependencies=TRUE) 
MFFURL’ neeps://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/contrib/3.3/ROS 
Content type ‘application/zip' length 829147 bytes (809 KB) 

downloaded 809 KB 


程序 包 *RoDac’ 打开 成 功 ，Mps 和 检查 也 通过 


下 载 的 二 进 制程 序 包 在 
C:\Users\spss\AppData\Local\Temp\Rtmp0aluR7\downloaded_packages= 
>| 








图 8-24 安装 RODBC 加 载 包 








"codetools" "0,2-14" 
"compiler" "3.3.1" 
"datasets" "3.3.1" 
foreign “foreign” "0.8-66" 
graphics "graphics" "3.3.1" 
grDevices  "grDevices™ "3.3.1" 
grid "gria" "3.3.1" 
KernSmooth "KernSmooth" "2.23-15" 
lattice "lattice" "0.20-33" 
MASS "MASS" "7.3-45" 
Matrix "Matrix" 1.2-6" 
methods "methods" "3.3.1" 


mgcv “mgev" "1.8-12" 
nlme "nlme" "3.1-128" 
nnet "nnet" "7.3-12" 
parallel "parallel" "3.3.1" 

RODBC hd 








spatial "7.3-11" 
splines "3.3.1" 
stats "3.3.1" 
stats¢ "3.3.1" 
survival "2.39-4" 
teltk stelte” "3.3.1" 
tools tools’ "3.3.1" 
translations "translations" "3.3.1" 

"utils: 3.3.1” 





图 8-25 查看 所 有 已 经 成 功 安装 的 包 
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2. 包 的 加 载 


在 命令 窗口 输入 library(" 加 载 的 包 名 称 ") ,完成 包 的 加 载 , 加 载 后 便 可 以 使 用 包 中 的 相 
KPA. TEAS ATT libraryC"RODBC" ) ,加 载 R 语 言 的 数据 库 连 接 包 ,如 图 8-26 所 示 。 








"compiler" 
"datasets" 


"parallel" 
"RODBC™ 


"rpart™ 
"spatial" 
"splines" 
"stats" 
statsa" 
“survival” 
"tcltk” 


"translations" "3.3.1" 


> library (RODBC) 
> 


‘ 


8-26 ”加载 RODBC 包 


3. RAB P Oe 


在 命令 窗口 输入 detach (package: "1% PK") . TEIR A FE P 4 K AD a SG J CH Ak 
续 使 用 包 中 的 相关 函数 ,但 释放 相应 的 内 存 空 间 给 操作 系统 。 在 命令 行 执行 detach 
(package:RODBC) ,从 内 存 中 印 载 R 语言 的 数据 库 连 接 包 。 


83 ”R 语 言 的 数据 结构 


R 语言 的 数据 结构 主要 与 线性 代数 中 的 一 些 概念 相似 ,如 向 量 , 和 矩阵 等 。 值 得 注意 的 
是 ,R 语言 中 其 实 没 有 如 数值 型 .字符 型 .逻辑 型 等 的 简单 数据 类 型 ,对 于 简单 类 型 R 语 
言 会 自动 看 做 长 度 为 1 的 向 量 。R 语言 中 最 重要 的 数据 结构 是 向 量 、 和 矩阵 、 数 组、 因子 、 列 
表 和 数据 框 。 本 节 详细 介绍 R 的 向 量 、\ 和 矩阵 、 数 组 。 因 子 、 列 表 、 数 据 框 。 


8.3.1 向 量 
向 量 是 R 语言 最 基本 的 数据 结构 ,用 来 存储 一 维 数据 ,其 中 的 数据 必须 具有 相同 的 


See RS 


数据 类 型 ,比如 都 是 字符 或 都 是 整数 ,可 以 用 函数 c() 来 创建 向 量 。 例 如 : 


var_number <-c(2,4,6,8,10) 
var_character <- c ("CQUPT", "Chongqing", "China") 
var_boolean <- c (TRUE, TRUE, FALSE, FALSE) 
在 民 语 言 中 可 以 使 用 等 号 "二 ”来 赋值 ,也 可 以 使 用 箭头 “二 一 ”来 赋值 ,两 种 方法 几 
乎 没有 区 别 , 但 一 般 在 赋值 的 时 候 使 用 箭头 ,传递 参数 的 时 候 使 用 等 号 。 
使 用 方 括号 来 访问 向 量 中 的 元 素 ,在 R 中 ,向 量 下 标 不 是 从 0 开始 的 ,而 是 从 1 开始 
的 。 例 如 ,访问 向 量 var_number 的 第 1 个 元 素 , 用 var_number[1]; 访 问 向 量 var_ 
number 的 第 3 到 第 5 个 元 素 , 用 var_number[3:5]; 访 问 向 量 var_number 中 除了 第 二 个 
元 素 以 外 的 其 他 所 有 元 素 , 用 var_number[ 一 2], 如 图 8-27 所 示 。 
wae 
文件 RE EE 其 他 Geo 窗口 帮助 


(o]ePTe (les S) (6) 








> var_number <- c(2,4,6,8,10) 
> 180 

[1] "var_number" 

> var_number[1] 

[1] 2 

> var_number[3:5] 

1 6 810 
> var_number[-2] 
n) 2 6 810 
>I 


8-27 创建 和 访问 向 量 


8.3.2 和 矩阵 


矩阵 是 一 个 二 维 的 数组 ,与 向 量 一 样 , 其 中 的 数据 应 具有 相同 的 类 型 。 在 R 语言 中 
使 用 matrix() 函数 来 创建 矩阵 ,matrix() 的 用 法 为 : 


matrix (data=NA, nrow=1, ncol=1, byrow= FALSE, dimnames=NULL) 


其 中 ,data 表示 一 个 向 量 , 即 需要 创建 的 矩阵 中 的 元 素 ;nrow 表示 行 数 ;ncol 表示 列 数 ; 
byrow 是 一 个 逻辑 变量 ,默认 为 FALSE, 表 示 按 列 排列 ,如 果 为 TRUE, 表示 按 行 排列 ， 
dimnames 表示 向 量 的 行 和 列 的 名 字 , 默 认 没 有 名 字 。 

用 如 下 语句 创建 一 个 2 行 .3 列 , 按 行 排列 ,元 素 从 1 到 6 的 矩阵 ml : 


ml < 一 matrix (data=c(1,2,3,4,5,6), nrow=2, ncol=3, byrow=TRUE, 
dimnames= list (c("rowl", "row2"),c("col.1", "col.2", "col.3"))) 


与 向 量 类 似 , 可 以 通过 下 标 来 取出 矩阵 中 的 元 素 , 如 ml[1,3] 表 示 第 一 行 第 三 列 的 元 
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素 , 而 ml[2,] 表 示 第 二 行 元 素 。 结 果 如 图 8-28 所 示 。 


R RGui 64-bit) 
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> ml <- matrix(data = c(1,2,3,4,5,6), nrow = 2, ncol = 3, byrow = TRUE, 
+ dimnames = list(c("rowi", "row2"), 
+ e("col.1", "col.2", "col.3"))) 
>m 
col.1 col.2 
rowl 1 2 
row2 4 5 
> mi[1,3] 
[1 3 
> m[2,] 
col.1 col.2 col.3 
4 5 6 
>I 





1 » 


图 8-28 ”创建 和 访问 行 矩 阵 ml 
用 如 下 语句 创建 一 个 2 行 .3 列 , 按 列 排列 ,元 素 从 1 到 6 的 矩阵 m2: 


m2 <-matrix (data=c(1,2,3,4,5,6), nrow=2, ncol=3, byrow=FALSE, 
dimnames= list (c("rowl", "row2"),c("col.1", "col.2", "col.3"))) 





> m2 <- matrix(data = c(1,2,3,4,5,6), nrow = 2, ncol = 3, byrow = FALSE, 
dimnames = list(c("rowl", "row2"), 
€("col.1", "col.2", "col.3"))) 





8.3.3 数组 


数组 是 带 有 多 个 下 标的 类 型 相同 的 元 素 的 集合 ,数组 中 元 素 的 类 型 也 要 相同 ,可 以 通 
过 array O 函数 来 创建 数组 ,array() 的 用 法 为 : 


array(data=NR，dim= length (data), dimnames=NULL) 





See RS 


其 中 ,data 表示 一 个 向 量 , 即 需要 创建 的 数组 中 的 元 素 ;dim 表示 数据 的 维度 ,默认 值 是 数 
据 的 长 度 ;dimnames 用 来 指定 各 个 维度 的 名 字 , 默 认 没有 名 字 。 
用 如 下 语句 创建 一 个 三 维 的 数组 arl, 


arl <- array (data=c(1:4,11:14,21:24), dim=c(2, 2, 3),dimames= list (c("diml.1", 
"diml.2"), c("dim2.1","dim2.2"),c("dim3.1", "dim3.2", "dim3.3") )) 
arl[1,1,1] 表 示 维 度 1.2 和 3 都 在 第 一 个 的 元 素 ,arl[2,1,2] 表示 维度 1 的 第 二 个 ,维度 
2 的 第 一 个 维度 3 的 第 二 个 元 素 , 如 图 8-30 所 示 。 


| 文件 sa sE 其 他 Be BD em 


Ee ES) 





> arl <- array(data = c(1:4,11:14,21:24), dim = c(2, 2, 3), 
+ dimnames = list (c("dim1.1","diml.2"), c("dim2.1","dim2.2"), 
+ c("dim3.1", "dim3.2", "dim3.3"))) 


[f > ari(a,2,27 
[1 1 
> arl{2,1,2] 
(a) 12 
> | 








图 8-30 ”创建 和 访问 数组 arl 
可 以 尝试 着 改变 下 标 ,看 看 取出 的 值 是 否 与 预期 的 一 样 ,加 深 对 R 语言 数组 的 理解 。 
8.3.4 因子 


因子 用 来 表示 分 类 变量 ,这 类 变量 不 能 用 来 计算 ,而 只 能 用 来 分 类 或 者 计数 ,如 性 别 
或 者 民族 等 ,使 用 factor() 函 数 来 创建 因子 ,factor() 的 用 法 为 


factor (x= character (), levels, labels= levels,exclude=NA, 
ordered= is.ordered (x), nmax=NA) 


其 中 ,x 表示 创建 因子 所 需 的 向 量 ;levels 表示 创建 因子 向 量 级 别 , 如 果 不 指定 ,就 是 x 中 
所 有 值 都 不 重复 ;labels 是 级 别 标签 ,与 前 面 的 levels 一 一 对 应 ,便于 识别 ;exclude 表示 
哪些 级 别 需 要 排除 在 外 ;ordered 表示 因子 是 有 序 因子 还 是 无 序 因 子 , 为 TRUE 时 ,x 为 
有 序 因子 ,为 FALSE 时 ,x 为 无 序 因子 ;nmax 表示 级 别 数量 的 上 限 值 。 
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用 如 下 语句 创建 一 个 向 量 , 并 用 向 量 创建 3 个 因子 ,通过 3 个 因子 的 创建 和 显示 ,可 
以 很 好 地 了 解 levels labels 等 参数 ,如 图 8-31 所 示 。 

ieolor -oR "GO T SF" "Gly. "Rye Rp OX) 

fal <- factor (color) 


fal 

fa2 <-factor(color, levels=c('G', 'R', 'Y'), labels=c("#', ' 红 ', ' 黄 ')) 
fa2 

fa3 <- factor (color, levels=c('G', 'R' ), labels=c('Green', 'Red')) 

fa3 





> color <- c('R', 'G', Yt, Cyt, ‘Gt, PR", "yt, IRE, ty! 
> fal <- factor (color) 

> far 

OQ) RGYYGRYRY 

Levels: GRY 


Í > a2 <- factor(color, levels = c('G', 'R', 'Y'), labels = c(' 绿 '，' 红 '，' 黄 ')) 
> fa2 
f i1 © R E R 
|| Levers: 绿 红 黄 
> fa3 <- factor(color, levels = c('G', 'R' ), labels = c('Green', 'Red')) 


> fa3 
[|] [1] Red Green <NA> <NA> Green Red <NA> Red <NA> 
| Levels: Green Red 

> 





图 8-31 创建 和 访问 因子 
因子 fa3 中 显示 为 NA 的 表示 值 不 可 用 (not available) 或 者 值 缺失 。 
8.3.5 列表 


前 面 学 习 的 几 种 数据 结构 都 只 能 存储 同一 类 型 的 值 ,如 果 一 个 数据 结构 需要 包含 不 
同 的 数据 类 型 , 则 可 以 采用 列表 这 种 形式 。 使 用 list() 函 数 来 创建 列表 ,list() 的 用 法 为 


list (namel= component1，name2= component2, ***) 


其 中 ,name 和 component 分 别 表示 列表 中 的 元 素 的 名 称 与 值 。 用 如 下 语句 创建 一 个 包 
含 3 个 因子 的 列表 ,并 使 用 门 和 $ 对 列表 进行 访问 ,如 图 8-32 所 示 。 


id <-c(1,2,3) 

title <-c('Mr A', 'Mr B', 'Mr C') 

depart <- ("Computer Science", 'Information Security', "Geographic Infomation") 
teacher <- list (group=id, name=title, decription= depart) 

teacher 

teacher ["group"] 

teacher$ name 

teacher [3] 
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teacher$ n 
teacher ["n"] 


文件 SE Se 其 他 a 0 帮助 


| 区 入 品名 Ge 








> id <- cl1,2,3) 

> title <- c('Mr A', 'Mr B', ‘Mr Ct) 

> depart <- c('Computer Science', 'Information Security','Geographic Information’) 
> teacher <- list(group = id, name = title, decription = depart) 


Sname 
(2) "Mr Av "Mr B® "Mr C" 


$decription 
[1] "Computer Science” “Information Security" 
[3] "Geographic Information" 


> teacher["group"] 


[1] "Computer Science” “Information Security" 
I|] [3] "Geographic Information" 


Ij] > teachersn 
(2) "Mr A" "Mr Be "Mr C" 
> teacher[*n"] 
S<NR> 





NULL 


>| 








图 8-32 ”创建 和 访问 列表 












使 用 [和 $ 取 值 的 区 别 如 下 : [] 使 用 精确 值 来 匹配 ;而 $ 使 用 模糊 匹配 ,只 要 没 匹 配 到 
重复 的 ,就 可 以 取 到 值 。 这 就 是 teacher $ n 能 取 到 值 ,而 teacher["n"] 取 不 到 值 的 原因 。 


8.3.6 数据 框 


R 语言 的 数据 框 , 也 称 为 数据 帧 ,是 R 语言 中 使 用 非常 广泛 的 一 种 数据 结构 ,在 进行 
数据 分 析 的 时 候 ,通常 会 使 用 数据 框 来 进行 数据 的 存储 ,有 点 类 似 微软 公司 的 Excel 电子 
表格 。 可 以 把 数据 框 理解 为 可 以 在 各 列 存放 不 同 数据 类 型 元 素 的 矩阵 , 当然 每 一 列 的 数 
据 类 型 要 求 一 样 ,整个 数据 框 各 列 之 间 的 数据 类 型 可 以 不 同 。 使 用 data. frame O 函数 来 
创建 列表 ,data. frame() 的 用 法 为 


data.frame (***, row.names=NULL, check. rows= FALSE, check.names= TRUE, 
fix.empty.names= TRUE, stringsAsFactors= default .stringsAsFactors ()) 


其 中 ,“…?” 表 示 各 个 列 的 数据 集 ; row. names 表示 行 的 名 称 ;check. rows 是 逻辑 值 , 表 示 
是 否 检查 行 的 长 度 和 名 称 ;check. names 也 是 逻辑 值 ,表示 检查 数据 框 中 的 变量 名 称 是 否 
合法 以 及 是 否 有 重复 fix. empty. names 也 是 逻辑 值 , 表 示 如 果 参 数 是 未 命名 的 ,是 否 可 
以 自动 生成 一 个 名 称 ;stringsAsFactors 也 是 逻辑 值 , 表 示 是 否 把 数据 集中 的 字符 串 转化 
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为 因子 。 
用 如 下 语句 创建 一 个 包含 4 个 列 的 数据 框 ,并 用 口 对 数据 框 进行 访问 ,如 图 8-33 所 示 。 


varl <- c (101, 102, 103,104, 105) 

Var2 < -c (25,22,29, 34,33) 

var3 <- factor (c ("male", "male", "female", "female", "male")) 

var4 <-c(" 张 三 "," 李 四 "," 王 五 "," 赵 六 "," 钱 七 ") 

user.dat <-data.frame(id=varl, age=var2, gender= var3,name= var4) 
user.dat 

user.dat[1,] 

user.dat[,2] 

user .dat [3,3] 

user.dat [4,4] 





> varı <- c(101,102, 103,104,105) 
f > varz <- c(25,22,29,34,33) 
Semalar, alet) 


|) id age gender name 
| 1101 25 male 张 三 
|| 2 102 22 mile 李 四 


用 : 103 29 remaae 王 五 


104 34 female 赵 六 
105 33 male Rt 
user.dat(1,] 
|| id age gender name 
[1101 25 male 张 三 
|) > wser.dact,2) 
|) ba 25 22 29 34 33 
|) > user.dat [3,3] 
|| (2) temale 
[| Levels: female male 
Iff > vser.dat (4,4) 
[1] 赵 六 
| ri 李 四 Bt 王 五 张 三 赵 六 
> 








8-33 ”创建 和 访问 数据 框 


84 R 语 言 的 编程 结构 


有 语言 是 一 种 表达 式 语 言 , 也 就 是 说 其 命令 类 型 只 有 函数 或 表达 式 , 并 由 它们 返回 一 
个 结果 ,与 C、.C++、Python、Perl 等 语言 类 似 , 也 有 编程 结构 。 本 节 介绍 R 语言 的 条 件 语 
句 和 循环 语句 。 


8.4.1 条 件 语 名 
R 语言 的 条 件 语句 主要 有 if-else 语句 \ifelse 语句 和 switch 语句 。 





See RBS 


if-else 语句 的 语法 为 








if (condition) {exprl} else {expr2} 


exprl expr? 可 以 为 一 个 或 一 组 语句 , 若 只 有 一 个 语句 ,可 省 略 大 括号 。 
if-else 语句 可 以 进行 如 下 的 嵌 套 使 用 : 


if (conditionl) {exprl} else if (condition2) {expr2} else {expr3} 


看 如 下 两 个 简单 的 例子 以 了 解 if-else 语句 的 用 法 ,其 中 cat 和 print 为 屏幕 打印 函 
数 , 结 果 如 图 8-34 所 示 。 


x<-8 
if (x<0) cat ("x/h FÆ") 
if (x>=0) print (x) else print (- x) 


y <--10 
if (y<0) cat ("y 小 于 零 ") 
if (y>=0) print (y) else print (- y) 





> if (x<0) cat ("x 小 于 零 ") 
> if (x>=0) print(x) else print(-x) 


a) 8 
> y <- -10 
> if (y<0) cat ("y 小 于 零 ") 
y 小 于 零 > if (y>=0) print(y) else print(-y) 
[1] 10 

> 











图 8-34 if-else 语句 运行 结果 
ifelse 语句 的 语法 为 


ifelse (condiction, yes,no) 


ifelse 语句 对 condition 进行 逻辑 判断 ,如 果 为 TRUE, 就 执行 yes 语句 ,否则 执行 no 
语句 。 
看 如 下 的 例子 以 了 解 ifelse 语句 的 用 法 ,结果 如 图 8-35 所 示 。 


a <-c(3:-3) 


ifelse (a>=0,a,-a) 


switch 语句 的 语法 为 
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switch (expr,***) 


其 中 ,expr 为 表达 式 , 若 其 返回 值 在 1 至 length(…) 之 间 , 则 返回 列表 相应 位 置 的 值 ,否则 
返回 “NULL”;*…” 为 列表 。 若 *…” 的 列表 对 象 有 名 称 , 则 expr 表达 式 等 于 变量 名 时 , 返 
回 该 变量 名 对 应 的 值 。 


看 如 下 的 例子 以 了 解 switch 语句 的 用 法 ,其 中 函数 mean(1:10) 是 计算 1 十 2 十 … 十 
10 的 平均 值 是 多 少 , 结 果 如 图 8-36 所 示 。 


mean (1:10) 


switch (2,mean (1:10),1:5,1:10) 














If > a <- c(3:-3) 


> mean(1:10) 
> ifelse(a>=0,a,-a) [1] 5.5 
01) 3210123 f> switch(2,mean(1:10),1:5,1:10) 
>| (ay 12345 
>| 





图 8-35 ifelse 语句 运行 结果 图 8-36 switch 语句 运行 结果 


8.4.2 循环 语句 


R 语言 的 循环 语句 主要 有 for 语句 、while 语句 和 repeat 语句 。 
for 语句 的 语法 为 


for(i in seq) {expr} 
其 中 ,i 为 循环 变量 ;seq 一 般 为 序列 ,每 次 循环 时 i 依次 从 seq 中 取 值 ;expr 为 一 个 或 一 组 
表达 式 , 当 i 在 seq 中 时 , 则 执行 expr 的 语句 ,否则 循环 终止 。 


循环 过 程 中 , 若 要 输出 每 次 循环 的 结果 ,可 使 用 函数 cat() 或 print() ,cat( ) 的 基本 格 
式 为 


cat (exprl, exprl, **) 


其 中 ,exprl 和 expr2 为 要 输出 的 内 容 , 可 以 是 字符 串 ( 输 出 该 字符 串 ) 或 表达 式 ( 输 出 表 
达 式 的 值 )。 若 要 换行 输出 ,使 用 “\n”。 


看 如 下 的 例子 以 了 解 for 语句 的 用 法 ,其 中 函数 sart 是 求 平方 根 函 数 , 结 果 如 图 8-37 
所 示 。 


n<-c(4,9,16,35) 


for(i inn) { 





See RS 


x<— sqrt (i) 
cat ("sqrt (", i, "): ", x, "\n") 


} 
while 语句 的 语法 为 


while(condition) {expr} 





其 中 ,condition 为 判断 条 件 expr 为 一 个 或 一 组 表达 式 。while 循环 重复 执行 expr 的 语 
句 ,直到 条 件 condition 不 为 真 为 止 。 
看 如 下 的 例子 以 了 解 while 语句 的 用 法 ,结果 如 图 8-38 所 示 。 


x<-2 

while ( x<=10) 
{ 

print (x) 


x=xt1 








If > x <- 2 
> while ( x<=10) 
+f 
+ print (x) 


> n<-c(4,9,16,35) 
> for(i inn) { 
x<-sqrt (i) 
cat("sqrt(", i, "): ", x, "\n") 


sqrt( 35 ): 5.91608 
> 





图 8-37 for 语句 运行 结果 图 8-38 while 语句 运行 结果 
repeat 语句 的 语法 为 
repeat expr 或 repeat { if(condition) {break}} 


repeat 是 无 限 循环 语句 ,直到 达到 循环 条 件 时 ,使 用 break 语句 直接 跳出 循环 。 

看 如 下 的 例子 以 了 解 repeat 语句 的 用 法 ,通过 用 户 登 录 次 数 userlevel 向 量 ,将 用 户 
分 为 “初级 用 户 “ 中 级 用 户 ”“ 高 级 用 户 ”, 其 中 函数 length 用 于 计算 向 量 中 的 元 素 个 数 ， 
结果 如 图 8-39 所 示 。 


userlevel<—c(1,2,3,11,9,7,18) 
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i<-1 

results<- "" 

repeat{ 

if (i> length (userlevel)) break 

if (userlevel [i]<=5) results[i]<- "初级 用 户 " else 
if (userlevel [i]<=15) results[i]<-" 中 级 用 户 " else 
results[i]<-" 高 级 用 户 " 

ic=-i+l 

} 

results 





文件 _ 编 各 查看 其 他 Bra 窗口 帮助 








回国 回民 3] 回回 


userlevel<-c(1,2,3,11,9,7,18) 

i<-1 

results<-"" 

repeat{ 

if (i>length(userlevel)) break 

if(userlevel [i]<=5) results[i]<-" 初 级 用 户 " else 
if(userlevel [i]<=15) results[i]<-" 中 级 用 户 " else 
results[i]<-" 高 级 用 户 " 

i<-i+1 

, 


> results 
[1] "初级 用 户 * "初级 用 户 "* "初级 用 户 " 


| ca “中 级 用 户 "" 中 级 用 户 ”" 中 级 用 户 " 
[7] "高 级 用 户 " 


+++ +¢+¢4¢VVVY 





图 8-39 repeat 语句 运行 结果 
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列 ,统计 、 图 表 和 数据 操作 等 ,通过 加 载 不 同 的 R 语言 包 就 能 实现 相应 的 数据 挖掘 、 统 计 
和 绘图 功能 。 本 节 介 绍 可 用 于 数据 挖掘 和 图 形 绘制 的 R 语言 包 和 函数 的 集合 ,包括 聚 类 
常用 包 , 分 类 常用 包 、 关 联 规则 常用 包 、 时 间 序 列 常用 包 、 统 计 常 用 包 和 绘图 常用 包 。 


1. 聚 类 包 


(1) 常用 的 包 : fpe、cluster、pvclust、mclust。 

(2) 基于 划分 的 方法 : kmeans、pam、pamk、clara。 
(3) 基于 层次 的 方法 : hclust、pvclust、agnes、diana。 
(4) 基于 模型 的 方法 : mclust。 


2. 分 类 包 


(1) 常用 的 包 : rpart, party, randomForest, rpartordinal tree, marginTree, maptree, 
survival, 

(2) 决策 树 : rpart.ctree,tree, 

(3) 随机 森林 : cforest、randomForest。 

(4) 回归 和 Logistic 回归 : glm, predict, residuals, 

(5) 生存 分 析 : survfit.survdiff coxph. 

(6) 支持 向 量 机 : e1071. 


3. 关联 规则 包 


(1) 常用 的 包 : arules。 
(2) APRIORI 算法 和 广度 RST 算法 : apriori drm。 
(3) ECLAT 算法 .采用 等 价 类 、RST 深度 搜索 和 集合 的 交集 : eclat, 


4. 时 间 序 列 包 


(1) 常用 的 包 : timsac.arulesSequences. 
(2) 时 间 序 列 构建 函数 : tseries forecast. 
(3) 成 分 分 解 : decomp,decompose,stl,tsr. 
(4) SPADE 算法 : cSPADE, 


5. 统计 包 


(1) 常用 的 包 : nlme, 

(2) 方差 分 析 : aov, anova. 

(3) 密度 分 析 : density, 

(4) 假设 检验 : t. test\prop. test anova,aov. 
(5) 线性 混合 模型 : Ime. 

(6) 主 成 分 分 析 和 因子 分 析 : princomp. 


6. 绘 图 包 
(1) 条 形 图 : barplot。 
(2) 饼 图 : pie. 


(3) WAR: dotchart。 

(4) 直方 图 : hist。 

(5) 密度 图 : densityplot. 

(6) 蜡烛 图 AIF: boxplot。 

(7) QQ 图 : qqnorm、qqplot、qqline。 
(8) 双 变 量 图 : coplot. 
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(9) 树 图 : rpart. 


86 实际 案例 


本 节 以 农村 危房 成 因 决策 树 分 析 为 例 ,对 R 语言 进行 综合 的 .实际 的 案例 演示 。 


# 设 置 工作 空间 

setwd("D:/ 快 盘 /2016- 2017 第 一 学 期 /大 数据 智能 分 析 与 处 理 教材 ") 
# 读 取 数据 文件 , 带 标题 行 

nwdata= read.csv(file ="./R 语 言 数据 .csv",header =T) 


# 数 据 清洗 ,去 掉 含 缺失 值 的 行 
nwdata=na.omit (nwdata) 


# 为 每 列 数据 进行 命名 

colnames (nwdata) <-c ("nation", "population", "farmertype", "buildyear", 
"floor", "housearea", "roomnumber", "buildarea", "housetype", "buildtype", 
"dangerouslevel") 


# 设 置 随机 数 种 子 

set .seed (0201) 

# 定 义 序列 nw, 随 机 抽取 70s 的 训练 集合 30s 的 测试 集 

nw <- sample (2,nrow (nwdata), replace = TRUE, prob =c(0.7,0.3)) 
#40 70s 的 训练 数据 赋值 给 traindataset 

traindataset <-nwdata[nw ==1,] 

# 把 30% 的 训练 数据 赋值 给 testdataset 


testdataset <- nwdata [nw ==2,] 


# 将 dangerouslevel 列 转换 为 factor 类 型 
traindataset <-transform(traindataset, dangerouslevel=as.factor 


(dangerouslevel) ) 


# 安 装 caRT 决 策 树 包 

# instal1.packages ("tree", dependencies =TRUE) # 如 果 需 要 安装 ,去 掉 最 前 面 的 # 号 
# 安 装 Roc 曲线 包 

#install.packages ("ROCR", dependencies =TRUE) ## 如 果 需 要 安装 ,去 掉 最 前 面 的 # 号 


# 加 载 caRT 决 策 树 包 
library (tree) 

# 加 载 Roc 曲线 包 
library (gplots) 
library (ROCR) 


# 建 立 决策 树 模型 


See RS 







tree.model <- tree (dangerouslevel ~ nationtpopulation+ farmertypet buildyear+ 
floor+ housearea+ roomnumber+ buildarea+ housetype+ buildtype, traindataset) 
# 概 要 结论 , 见 图 8- 40 


summary (tree.model) 





Classification tree: 

tree (formula = dangerouslevel ~ nation + population + farmertype + 
buildyear + floor + housearea + roomnumber + buildarea + 
housetype + buildtype, data = traindataset) 


Variables actually used in tree construction: 
[1] "buildtype" "farmertype" 

Number of terminal nodes: 3 

Residual mean deviance: 2.087 = 7176 / 3439 
Misclassification error rate: 0.4855 = 1671 / 3442 


图 8-40 ”模型 概要 结论 





# 画 决策 树 图 , 见 图 8-41 
plot (tree.model) ;text (tree.model) 











8-41 模型 决策 树 图 


confusion =table (traindataset$ dangerouslevel,predict (tree.model, 
traindataset, type ="class") ) 


accuracy = sum (diag (confusion) ) * 100/sum (confusion) 


# 画 carr 决策 的 Roc 曲线 , 见 图 9-42 
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tree.pred < -prediction (predict (tree.model, testdataset) [,2], 
testdataset$ dangerouslevel) 

tree.perf < -performance (tree.pred, "tpr", "fpr") 

plot (tree.perf) 


“GRR Graphics: Device 2 (ACTIVE) CCE 











True positive rate 














0.0 0.2 04 06 0.8 1.0 


False positive rate 








图 8-42 模型 ROC 曲线 


87 aN 结 


本 章 介绍 了 及 语言 3. 3. 1 版 本 的 下 载 与 安装 。 还 介绍 了 R 语言 的 运行 常用 操作 以 
及 包 的 使 用 。 接 下 来 介绍 了 R 语言 的 数据 结构 ,包括 向 量 , 矩 阵 、 数 组 因子、 列表 框 和 数 
据 框 。 还 介绍 了 R 语言 的 基本 编程 结构 ,包括 条 件 语句 和 循环 语句 。 在 介绍 了 R 语言 在 
数据 挖掘 和 图 形 绘制 方面 常用 的 包 后 ,给 出 一 个 实际 的 R 语言 案例 。 


88 习 题 
1. 安装 聚 类 算法 的 k-means 包 和 随机 森林 的 randomForest 包 。 


2. 调用 R 语言 随机 数 函 数 , 产 生 [50,550] 间 的 均匀 随机 数 20 个 。 
3. 利用 第 2 题 得 到 的 数据 ,用 plot 语句 绘制 趋势 线 图 。 
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Hadoop 大 数据 分 布 式 
处 理 生 态 系统 


随 着 大 数据 时 代 的 到 来 ,从 应 用 需求 、 硬 件 环境 、 互 联 模式 到 计算 技术 都 在 发 生 显著 
的 变化 ,人 们 对 分 布 式 并 行 计算 的 需求 也 在 越 来 越 大 ,上 述 变 化 为 分 布 式 并 行 计算 带 来 了 
新 的 发 展 契 机 ,同时 也 带 来 了 巨大 的 研究 挑战 。 其 中 ,多 样 化 的 并 行 计算 模型 是 消除 分 布 
式 并 行 应 用 开发 的 瓶颈 .推动 大 数据 发 展 的 核心 技术 之 一 。 目 前 ,工业 界 和 学 术 界 正在 进 
行 各 种 尝试 和 探索 ,研究 和 开发 不 同 的 并 行 计 算 模型 ,以 满足 大 数据 处 理 的 多 样 化 需求 。 目 
前 有 代表 性 的 大 数据 分 布 式 存储 与 并 行 计算 的 软件 框架 Apache Hadoop( 以 下 简称 
Hadoop) 应 用 非常 广泛 。 时 至 今日 ,Hadoop 代表 的 已 经 不 仅仅 是 一 个 分 布 式 数据 存储 与 处 
理 框 架 , 而 更 多 地 是 指 代 一 个 大 数据 分 析 处 理 的 生态 系统 ,围绕 Hadoop 这 个 概念 衍生 了 诸 
多 工具 与 项 目 , 如 Apache Pic, Apache Hive, Apache HBase, Apache Spark, Apache Storm 等 。 

本 章 从 介绍 Hadoop 集群 的 基本 概念 (9. 1 节 ) 开 始 ,然后 介绍 HDFS 基本 操作 (9. 2 
节 ),MapReduce 并 行 计 算 基 础 (9. 3 节 ) ,基于 Storm 的 分 布 式 实时 计算 (9. 4 节 ) ,以 及 基 
于 Spark Streaming 的 分 布 式 实 时 计算 (9.5 节 )。 在 每 一 节 中 都 给 出 若干 样 例 , 供 读者 在 
实际 编程 过 程 中 参考 。 
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Hadoop 是 一 个 开源 的 框架 。 为 实现 高 可 用 性 ,Hadoop 的 所 有 组 件 在 设计 之 初 都 是 基 
于 如 下 假设 的 : 集群 中 硬件 故障 是 常见 的 ,软件 框架 应 当 能 在 软件 层面 自动 处 理 这 些 故 障 。 

Hadoop 的 基本 框架 包含 4 个 模块 : 

。 Hadoop 公共 包 (Hadoop Common)。 提 供 其 他 Hadoop 模块 所 需要 的 库 和 组 件 。 

。 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System,HDFS) 。 提 供 在 普通 

机 器 所 组 成 的 集群 上 的 高 可 用 的 分 布 式 文件 系统 

。 Hadoop YARN。 集 群 计算 资源 管理 平台 。 

。 Hadoop MapReduce。 用 于 大 规模 数据 处 理 的 分 布 式 计算 范 型 。 

Hadoop 是 典型 的 主 / 从 (Master/Slave) 结 构 。 在 数据 存储 方面 , 主 (Master) 节点 
NameNode 主要 负责 管理 HDFS 文件 系统 的 命名 空间 (NameSpace) ,以 及 维护 文件 系统 
树 和 文件 树 中 所 有 文件 ,文件 夹 的 元 数据 (metadata) 。 也 就 是 说 NameNode 知道 所 有 数 
据 及 其 复 本 的 存放 位 置 、 操 作 日 志 等 。 而 从 (Slave) 节 点 DataNode 则 负责 数据 块 的 存 取 ， 
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是 实际 存放 数据 的 地 方 ,它们 维护 并 定期 向 NameNode 发 送 自身 存储 的 块 (Block) 的 列 
表 。 另 外 ,集群 中 还 有 一 个 Secondary NameNode 节点 ,主要 功能 是 定期 保存 NameNode 
中 HDFS 的 元 数据 的 快照 ,以 便 在 NameNode 出 现 问题 时 接管 。 

在 数据 处 理 方面 , 主 (Master) 节 点 ResourceManager(RM) 负 责 监 控 整 个 集群 的 可 用 
计算 资源 ,管理 运行 在 YARN 系统 上 的 分 布 式 应 用 ,而 从 (Slave) 节 点 NodeManager 
(CNM) 则 负责 接收 RM 的 指令 并 管理 自身 所 在 的 单个 节点 的 计算 资源 。 图 9-1 展示 了 
YARN 框架 的 基本 构成 。 其 中 RM 负责 接收 作业 并 将 作业 分 配 到 NM。 对 于 某 一 个 作 
业 , 在 一 个 NM 上 启动 Application Master(AM) ,在 其 他 若干 个 NM 上 启动 Container。 
AM 仅 负 责 当 前 作业 的 资源 调度 和 请 求 ,而 RM 负责 与 所 有 AM 进行 资源 的 协商 与 调 
度 。 作 业 实 际 运行 在 Container 上 。 这 样 做 的 好 处 是 : 对 于 不 同 的 应 用 ,作业 内 部 的 管理 
分 担 到 了 各 个 AM 上 ,大 大 减轻 了 RM 的 压力 ,提高 了 集群 的 可 扩展 性 。 
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图 9-1 YARN 资源 调度 框架 
































综合 来 看 ,NameNode、Secondary NameNode 以 及 ResourceManager 属于 主 节点 ,而 
DataNode、NodeManager 属于 从 节点 。 一 般 来 说 , 主 节点 应 当 部 署 在 单独 的 机 器 上 ,而 不 
应 该 和 从 节点 共享 硬件 。 

下 面 介绍 如 何 安装 和 配置 一 个 Hadoop 集群 。 


9.1.1 Hadoop 安装 


Hadoop 可 以 安装 在 单 台 计 算 机 上 ,也 可 以 安装 在 一 个 集群 上 。 这 里 先 来 看 如 何在 
单 台 计算 机 上 安装 Hadoop。 


1. 安装 前 的 准备 
(1) 平台 需求 : Hadoop 支持 在 GNU/Linux 平台 上 进行 开发 和 产品 化 ,也 支持 
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Windows 操作 系统 ,但 建议 使 用 Linux 平台 。 本 章 所 述 内 容 均 默认 安装 在 Linux FRE. 
(2) 软件 需求 : 目标 系统 应 当 安 装 Java, Hadoop 2.7 及 以 上 版 本 的 最 低 需 求 是 Java 
Cato 2.6 及 之 前 版 本 支持 Java 6。 
另外 ,目标 系统 应 当 安 装 并 运行 ssh。 


2. 下载 及 安装 


在 Java 和 ssh 准备 就 绪 之 后 ,到 网 站 http://www. apache. org/dyn/closer. cgi/ 
hadoop/common/ 下 载 一 个 稳 定 版 本 的 Hadoop 并 解压 到 指定 的 目录 。 

在 Z 行 Hadoop 之 前 ,需要 指 FE 定 使 用 的 Java 路 径 。Hadoop 默认 使 用 系统 的 JAVA_ 
HOME 变量 ,如 果 用 户 希 望 使 用 该 路 径 , 则 无 须 进 行 任何 设置 。 如 果 用 户 希 望 使 用 一 个 新 
的 Java 路 径 , 则 需 在 解压 后 目录 找到 文件 etc/hadoop/hadoop-env. sh 并 增加 如 下 变量 : 








#set to the root of your Java installation 


export JAVA_HOME= your java path 

保存 etc/hadoop/hadoop-env. sh 并 关闭 ,至 此 ,Java 与 Hadoop 的 关联 已 经 建立 。 下 
是 将 Hadoop 的 安装 目录 添加 到 环境 变量 ,打开 一 /. bashrc ,添加 如 下 语句 ， 

# set to the root of your Hadoop installation 


export HADOOP_INSTALL = your_hadoop_unpack_path 
export PATH= $PATH: SHADOOP_INSTALL/bin: $HADOOP_INSTALL/sbin 


至 此 ,Hadoop 安装 完毕 ,在 终端 执行 如 下 命令 : 





Shadoop 
终端 将 显示 Hadoop 脚本 的 使 用 说 明 , 如 图 9-2 所 示 。 


config confdir] [co 
run the cla 


where COMMAND is one of: 
run ag 
print 
run a j 


yarn jar" to launch 
N applications, not this command 


native hadoop and on libraries availability 
file or dir 
e a hadoop archive 


edential 
d the 
daemonlog get/set the log level for each da 
trace view and modify Hadoop tracing settings 





图 9-2 Hadoop 脚本 的 使 用 说 明 
在 终端 输入 hadoop version ,终端 将 显示 Hadoop 的 版 本 ,如 图 9-3 所 示 。 


s/asf/hadoop.git -r bl65c 64664acfee41 





图 9-3 Hadoop 的 版 本 


318 


SoS Hadoop K ED # ot i 4b Ba AK SE 


9.1.2 Hadoop 配置 


Hadoop 有 3 种 运行 模式 : 本 地 模式 、 伪 分 布 式 模式 以 及 全 分 布 式 模式 。 前 两 者 都 运 
行 在 本 地 计算 机 上 。 第 3 种 模式 运行 在 真实 集群 上 。 


1. 基本 配置 


Hadoop 有 以 下 3 种 运行 模式 : 
。 本 地 模式 。 在 默认 情况 下 , Hadoop 以 本 地 模式 运行 。 本 地 模式 实际 上 就 是 JVM 
中 的 一 个 进程 。 此 模式 常用 于 Hadoop 程序 的 开发 与 调试 。 
。 伪 分 布 式 模式 。Hadoop 在 本 地 计算 机 上 运行 守护 进程 ,模拟 一 个 小 规模 的 集群 ， 
用 户 可 以 用 脚本 方式 向 模拟 的 集群 提交 作业 。 
。 全 分 布 式 模式 。Hadoop 在 整个 集群 上 运行 守护 进程 。 
Hadoop 的 配置 文件 存放 在 ect/hadoop/ 目 录 中 。 在 最 初 的 版 本 中 ,Hadoop 采用 一 
个 hadoop-site. xml 文件 来 进行 配置 。 从 0. 20. 0 版 本 开始 ,Common、HDFS、MapReduce 
和 YARN 分 别 由 core-site. xml、hdfs-site. xml,mapred-site. xml 和 yarn-site. xml 来 进行 
配置 。 本 地 模式 无 须 修改 默认 配置 , 伪 分 布 式 模式 则 需 做 如 下 修改 。 
(1) 在 配置 文件 core-site. xml 中 加 入 以 下 内 容 : 


<configuration> 
<property> 
<name> fs.defaultFS< /name> 
<value>hdfs://localhost: 9000< /value> 
</property> 
</configuration> 


这 个 配置 项 表明 HDFS 文件 系统 的 默认 访问 路 径 为 hdfs://localhost:9000。 
(2) 在 配置 文件 hdfs-site. xml 中 加 入 以 下 内 容 : 


<configuration> 
<property> 
<name> dfs.replication< /name> 
<value> 1< /value> 
</property> 
</configuration> 


这 个 配置 项 表明 数据 只 存储 一 个 复 本 。 全 分 布 式 模式 默认 存储 3 个 复 本 , 伪 分 布 式 


模式 中 ,数据 存储 在 本 地 计算 机 上 ,因此 没有 存储 多 个 复 本 的 必要 。 


如 果 要 在 伪 分 布 式 模式 中 利用 YARN 运行 MapReduce 程序 , 则 还 需要 进行 如 下 
配置 。 


(1) 在 配置 文件 mapred-site. xml 中 加 入 以 下 内 容 : 


<configuration> 


<property> 


ARB HAM A 


<name>mapreduce. framework.name< /name> 
<value> yarn< /value> 
</property> 
</configuration> 
这 个 配置 项 表明 在 此 模式 下 利用 YARN 运行 MapReduce 程序 。 
(2) 在 配置 文件 yarn-site. xml FINAL FAR: 


<configuration> 
<property> 
<name> yarn.nodemanager.aux- services< /name> 
<value>mapreduce_shuffle< /value> 
</property> 
</configuration> 
至 此 , 伪 分 布 式 模式 的 基本 配置 结束 。 在 利用 伪 分 布 式 模式 运行 MapReduce 程序 
前 ,还 需要 启动 守护 进程 。 
如 果 是 第 一 次 启动 ,还 需要 先 格式 化 文件 系统 : 


hdfs namenode - format 
启动 NameNode 和 DataNode 守护 进程 : 
start- dfs.sh 


启动 成 功 后 可 以 在 http://localhost: 50070/ 查 看 NameNode 界面 ,确认 HDFS 系统 
已 经 启动 ,可 以 进行 分 布 式 文件 的 存 取 。 
如 果 需 要 用 YARN 运行 MapReduce 程序 , 则 还 需要 启动 YARN 守护 进程 : 


start- yarn.sh 


启动 成 功 后 可 以 在 http://localhost: 8088/ 查 看 资源 和 节点 管理 界面 。 
守护 进程 所 产生 的 日 志文 件 可 以 在 Hadoop 安装 目录 的 logs 文件 夹 下 找到 ,也 可 以 
通过 配置 HADOOP_LOG_DIR 来 自 定义 日 志文 件 路 径 。 


2. 集 群 配置 


在 集群 上 安装 Hadoop 的 前 置 条 件 和 在 单机 上 配置 Hadoop 类 似 ,集群 中 每 一 台 计 
算 机 都 需要 下 载 Hadoop 并 解压 ,以 及 安装 对 应 版 本 的 Java。 限 于 篇 幅 ,这 里 仅 介 绍 
Hadoop 非 安全 模式 (non-secure mode) 的 配置 .关于 Hadoop 安全 模式 的 配置 ,请 参考 
Hadoop 官方 文档 (参考 文献 [3]) 。 

Hadoop 集群 中 的 每 个 节点 都 各 自 保留 一 系列 的 配置 文件 。Hadoop 支持 全 局 统一 
的 配置 ,也 就 是 说 集群 中 所 有 计算 机 采用 同样 的 配置 文件 。 这 种 方式 对 于 某 些 扩展 的 集 
群 不 实用 ,因为 不 同 批 次 的 计算 机 的 性 能 很 可 能 不 一 样 。 因 此 通常 将 计算 机 划分 为 不 同 
的 计算 机 类 ,同一 个 计算 机 类 的 计算 机 共享 配置 。 实 际 应 用 中 ,建议 采用 外 部 工具 进行 配 
置 管理 ,如 Chef, Puppet 等 。 在 这 里 ,只 讨论 通用 配置 的 部 分 。 
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在 集群 安装 前 ,需要 对 集群 中 的 计算 机 的 功能 做 一 个 划分 。 由 于 Hadoop 是 主 从 式 
结构 集群 ,因此 集群 中 的 计算 机 也 有 主 从 之 分 ,并 非 每 台 计 算 机 的 功能 都 是 相同 的 。 一 般 
来 说 ,NameNode 和 ResourceManager 应 当 被 分 开 部 署 在 单独 的 计算 机 上 。 有 条 件 的 话 ， 
Web 应 用 代理 服务 器 和 MapReduce 作业 历史 服务 器 也 应 当 分 开 部 署 在 单独 的 计算 
BE. 

Hadoop 的 配置 文件 主要 包括 两 类 : 一 类 是 各 个 核心 组 件 , 如 HDFS, YARN, 
MapReduce 等 的 配置 文件 ,名 称 格式 为 xxx-site. xml, 这 一 类 主要 负责 守护 进程 的 配置 ; 
另 一 类 则 是 环境 变量 配置 脚本 ,名 称 格式 为 xxx-env. sh, 这 一 类 主要 负责 守护 进程 的 运 
行 环境 变量 配置 。 

1) 守护 进程 环境 变量 配置 

用 户 应 当 使 用 hadoop-env. sh、mapred-env. sh 以 及 yarn-env. sh 来 对 守护 进程 的 环 
境 变量 进行 配置 , 表 9-1 是 守护 进程 类 型 和 相应 的 环境 变量 部 分 配置 项 。 


表 9-1 Hadoop 守护 进程 环境 变量 配置 项 























守护 进程 配置 项 
NameNode HADOOP_NAMENODE_OPTS 
DataNode HADOOP_DATANODE_OPTS 
Secondary NameNode HADOOP_SECONDARYNAMENODE_OPTS 
ResourceManager YARN_RESOURCEMANAGER_OPTS. 
NodeManager YARN_NODEMANAGER_OPTS 
WebAppProxy YARN_PROXYSERVER_OPTS 
MapReduce Job History Server HADOOP_JOB_HISTORYSERVER_OPTS 





比如 ,如 果 需 要 NameNode 使 用 并 行 垃圾 回收 , 则 需 在 hadoop-env. sh 中 进行 如 下 
配置 : 

export HARDOOP_NRMENODE OPTS= "- XX: +UseParallelGCn 

2) 守护 进程 配置 

(1) HDFS 配置 。 

HDFS 配置 主要 指明 系统 中 NameNode 和 DataNode 的 位 置 分布 式 文件 块 的 大 小 、 
节点 上 用 于 存储 分 布 式 文件 的 本 地 文件 系统 路 径 等 。 

在 core-site. xml 中 ,用户 需要 按 表 9-2 进行 配置 ,指明 集群 中 NameNode 的 位 置 。 

表 9-2 NameNode 配置 
参 数 fi & È 
fs. defaultFS NameNode 的 路 径 hdfs://host: port/ 

















hdfs-site. xml 的 配置 稍微 复杂 些 , 对 于 NameNode 和 DataNode 有 不 同 的 配置 项 。 
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对 于 NameNode, 常 用 配置 如 表 9-3 所 示 。 
表 9-3 HDS 守护 进程 环境 变量 配置 项 


参数 值 & È 


NameNode 在 本 地 文件 | 可 以 用 逗号 分 隔 多 个 路 径 , 这 种 情况 下 数 
系统 上 存储 数据 的 路 径 | 据 表 会 在 所 有 路 径 下 都 存储 一 个 宛 余 副本 


dfs, hosts /dfs. hosts. exclude | 允许 /拒绝 的 DataNode | 用 于 控制 允许 /拒绝 DataNode 


块 大 小 ( 字 节 ), 大 文件 系统 可 以 采 
用 256MB 


dfs. namenode. handler. count 100 用 于 与 DataNode 进行 远程 通信 的 句柄 数 











dfs. namenode. name. dir 








dfs. blocksize 268435456 














对 于 DataNode, 常 用 的 配置 如 表 9-4 所 示 。 


表 9-4 DataNode 配置 项 





参数 值 备 È 
DataNode 在 本 地 文件 系统 中 存储 数据 块 的 Biia 
dfs. datanode. data. dir 文件 夹 的 路 径 可 以 用 逗号 分 隔 多 个 路 径 
(2) YARN 配置 


YARN 配置 主要 指明 集群 中 ResourceManager 和 NodeManager 的 位 置 、 
ResourceManager 与 从 节点 进行 各 项 调度 与 交互 的 通信 接口 .单个 任务 的 可 用 资源 、 
NodeManager 用 于 运行 分 布 式 程序 的 可 用 资源 等 。 这 些 配置 集中 在 yarn-site. xml, 

如 果 要 在 集群 中 使 用 YARN 对 MapReduce 进行 调度 , 则 还 需要 对 yarn-site. xml 进 
行 配置 。ResourceManager 和 NodeManager 都 共用 的 部 分 配置 项 如 表 9-5 所 示 。 


表 9-5 YARN 共用 配置 项 
参数 值 备 È 


yarn, acl. enable true/false 是 否 启 用 ACLs, RUA false 
管理 员 列表 ,以 逗号 分 隔 , 默 认 值 为 * ,代表 所 有 人 都 

















aa Admin ACL | 具有 管理 员 权限 ,空格 表示 无 人 具有 管理 员 权限 
yarn. log-aggregation-enable | true/false 启用 或 禁用 日 志 聚 合 ,默认 为 false 





针对 ResourceManager 的 部 分 配置 项 如 表 9-6 所 示 。 


表 9-6 ResourceManager 配置 项 











参 数 值 备 È 
yarn, resourcemanager. ia n 用 于 YARN 客户 端 提交 作业 的 主机 与 端口 地 址 ,如 设置 ， 
address 将 覆盖 yarn. resourcemanager. hostname 的 值 
yarn, resourcemanager. iskupiti 用 于 AM 向 RM 请 求 资源 的 主机 与 端口 地 址 ,如 设置 ,将 覆 


scheduler. address 盖 yarn. resourcemanager. hostname 的 值 





yarn, resourcemanager. Bom 用 于 NM 与 RM 进行 通信 的 主机 与 端口 地 址 ,如 设置 ,将 覆 


resource-tracker. address 盖 yarn. resourcemanager. hostname 的 值 
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BR 
2 数 值 备 È 

yarn, resourcemanager. 人 用 于 管理 员 向 RM 发 送 管理 命令 的 主机 与 端口 地 址 ,如 设 
admin. address Se 置 ,将 覆盖 yarn. resourcemanager. hostname 的 值 
yarn. resourcemanager. h RM 的 Web UI 地 址 ,如 设置 ,将 覆盖 yarn. resourcemanager. 
webapp. address OSEE aa hostname 的 值 
yarn, resourcemanager. h 设置 单个 RM 的 host 地 址 时 ,将 同时 自动 以 默认 端口 设置 
hostname ce 所 有 其 他 地 址 (但 会 被 相应 的 设置 覆盖 ) 
yarn, resourcemanager. Scheduler 调度 器 主 类 ,可 选 CapacityScheduler, FairScheduler 以 及 
scheduler. class class FifoScheduler 
yarn; scheduler, mininsume | 各 单个 Container 可 分 配 的 最 小 内 存 ,以 兆 字 节 (MB) 为 单位 
allocation-mb 
rie a MA Container 可 分 配 的 最 大 内 存 ,以 兆 字 节 (MB) 为 单位 
allocation-mb 








针对 NodeManager 的 部 分 配置 项 如 表 9-7 所 示 o 


表 9-7 NodeManager 配置 项 























参数 值 备 È 
yarn. nodemanager. resource. 8192 NodeManager 上 可 用 于 执行 YARN 任务 的 
memory-mb 内 存 数 ,以 兆 字 节 (MB) 为 单位 
ee ea 单个 任务 可 用 的 虚拟 内 存 与 物理 内 存 的 比值 
pmem-ratio 
yarn. nodemanager. local-dirs pathl , path2, 本 地 文件 系统 上 用 于 存储 中 间 结 果 的 文件 夹 
i ` = 路 径 , 以 逗号 分 隔 
yarn, nodemanager. log-dirs pathl, path2, 本 地 文件 系统 上 用 于 存储 日 志 的 文件 夹 路 
i = 径 , 以 逗号 分 隔 
yarn. nodemanager. aux-services | mapreduce_shuffle | 用 于 MapReduce 应 用 的 shuffle 服务 设置 


(3) MapReduce 配置 。 


MapReduce 的 配置 集中 在 maprd-site. xml, 主要 负责 运行 框架 的 选择 、Map 与 


Reduce 及 其 子 线程 的 资源 限制 


等 。 


针对 MapReduce 应 用 的 常用 配置 项 如 表 9-8 所 示 。 


表 9-8 MapReduce 配置 项 


























2 数 值 备 È 
mapreduce. framework. name yarn 运行 框架 配置 
mapreduce. map. memory. mb 1536 Map 的 内 存 限 额 ,以 兆 字 节 (MB) 为 单位 
mapreduce. map. java. opts -Xmx1024M | Map 的 子 线程 的 JVM 最 大 可 用 内 存 
mapreduce. reduce. memory. mb | 3072 Reduce 的 内 存 限额 ,以 兆 字 节 (MB) 为 单位 
mapreduce. reduce. java. opts -Xmx2560M | Reduce 的 子 线程 的 JVM 最 大 可 用 内 存 
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参数 值 备 È 
de a 512 用 于 提高 效率 进行 数据 排序 的 内 存 限额 ,以 兆 字 节 
ia i ia a (MB) 为 单位 
mapreduce. task. io. sort. factor 100 合并 数据 流 时 一 次 合并 的 数据 流 数目 ,每 次 合并 时 
ee tg 选择 最 小 的 前 100 个 进行 合并 
mapreduce. reduce. shuffle. 50 shuffle 阶段 Reduce 从 Map 获取 数据 时 并 行 传输 
parallelcopies 数据 的 复 本 数 





针对 JobHistory 服务 器 的 常用 配置 如 表 9-9 所 示 。 
表 9-9 JobHistory 配置 项 











参数 值 备 È 
mapreduce. jobhistory. address host: port JobHistory 服务 器 地 址 ,默认 端 
口 10020 
mapreduce. jobhistory. webapp. MapReduce JobHistory | JobHistory Web UI 地 址 ,默认 端 
address Server Web UI host: port | 口 19888 








mapreduce. jobhistory. intermediate- P E EN P MapReduce 作业 产生 的 历史 文件 的 
done-dir Wr 存放 路 径 

MR JobHi Si 
mapreduce. jobhistory. done-dir /mr-history/done parables er 生理 的 历史 
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在 Hadoop 集群 中 ,用 户 可 以 采用 文件 系统 命令 FS shell( File System shell) 来 访问 
HDFS 文件 系统 中 的 文件 。FS shell 不 仅 可 以 用 来 与 HDFS 进行 交互 ,也 可 以 与 Hadoop 
支持 的 其 他 文件 系统 进行 交互 ,如 本 地 文件 系统 .HFTP 文件 系统 、S3 文件 系统 等 。FS 
shell 通过 如 下 方式 进行 调用 : 


hadoop fs <args> 


所 有 FS shell 命令 都 以 路 径 URL 作为 参数 ,路 径 URL 的 格式 为 scheme:// 
authority/path。 对 于 HDFS 文件 系统 而 言 , scheme 是 hdfs; 对 于 本 地 文件 系统 而 言 ， 
scheme 则 是 file, scheme 和 authority 都 是 可 选 的 ,在 没有 特别 指定 的 情况 下 ,将 默认 为 
配置 文件 中 的 scheme。 因 此 ,一 个 HDFS 文件 或 文件 夹 hdfs://namenodehost/parent/ 
child 可 以 简写 为 /parent/child( 前 提 是 配置 文件 中 将 hdfs://namenodehost 设置 为 默认 


文件 路 径 ) 。 
下 面 介绍 HDFS 常用 操作 命令 。 
1. appendToFile 


用 法 : hadoop fs -appendToFile <localsre> … <dst> 
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功能 : 将 一 个 或 多 个 本 地 文件 追加 到 目标 文件 。 也 可 以 从 标准 输入 追加 到 目标 
文件 。 
用 例 : hadoop fs -appendToFile localfile /user/hadoop/hadoopfile 
hadoop fs -appendToFile localfilel localfile2 /user/hadoop/hadoopfile 
hadoop fs -appendToFile localfile hdfs://nn. example. com/hadoop/hadoopfile 
hadoop fs -appendToFile - hdfs://nn, example. com/hadoop/hadoopfile 


返回 值 : 成 功 返回 0, 出 现 错误 返回 一 1。 

2. cat 

用 法 : hadoop fs -cat URI [URI …] 

功能 : 将 目标 文件 复制 到 标准 输出 。 

用 例 : hadoop fs -cat hdfs://nnl. example. com/filel hdfs://nn2. example. com/file2 


hadoop fs -cat file:///file3 /user/hadoop/file4 
返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


3. checksum 


用 法 : hadoop fs -checksum URI 

功能 : 计算 目标 文件 的 总 校 验 和 。 

用 例 : hadoop fs -checksum hdfs://nnl, example. com/filel 
hadoop fs -checksum file :///etc/hosts 


4 chgrp 


用 法 : hadoop fs -chgrp [-R] GROUP URI [URI …] 
功能 : 更 改 目标 文件 的 group。 操 作者 必须 是 文件 的 所 有 者 或 超级 用 户 。 
选项 : -R 对 文件 夹 内 的 文件 递归 地 执行 此 命令 。 


5. chmod 


用 法 : hadoop fs -chmod [-R] MODE[ .MODE]… | OCTALMODE> URI [URI …] 
功能 : 更 改 目标 文件 的 权限 。 操 作者 必须 是 此 文件 的 所 有 者 或 者 超级 用 户 。 
选项 : -R 对 文件 夹 内 的 文件 递归 地 执行 此 命令 。 


6. chown 


用 法 : hadoop fs -chown [-R] [LOWNER][: [GROUP]] URI [URI ] 
功能 : 更 改 目标 文件 的 所 有 者 。 操 作者 必须 是 超级 用 户 。 
选项 : -R 对 文件 夹 内 的 文件 递归 地 执行 此 命令 。 


7. copyFromLocal 


用 法 : hadoop fs -copyFromLocal <localsre> URI 
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功能 : 与 put 命令 相似 ,但 是 copyFromLocal 只 能 复制 本 地 文件 到 HDFS 中 。 
选项 : 如 果 它 已 经 存在 ,-f 会 覆盖 目标 。 


8. copyToLocal 


用 法 : hadoop fs -copyToLocal [-ignorecrc] [-crc] URI <localdst> 
功能 : 把 文件 从 HDFS 上 下 载 到 本 地 。 除 了 限定 目标 路 径 是 一 个 本 地 文件 ,其 他 与 
get 命令 相似 。 


9. count 


用 法 : hadoop fs -count [-q] [-h] [-v] <paths> 
功能 : 匹配 指定 的 模式 ,计算 目录 ,文件 和 字 节 的 数量 。 输 出 的 列 分 别 是 当前 路 径 下 
的 文件 夹 个 数 、 当 前 文件 夹 下 文件 的 个 数 、 该 文件 夹 下 文件 所 占 的 空间 大 小 、 当 前 路 径 。 
选项 : -q 输出 的 列 是 限额 ,剩余 限额 、 空 间 限 额 , 剩 余 空间 限额 。 
-h 将 文件 大 小 的 数值 用 方便 阅读 的 形式 表示 ,比如 用 64. OM 代替 67108864。 
-v 显示 一 个 标题 行 。 
用 例 ; hadoop fs -count hdfs://nnl. example. com/filel hdfs://nn2. example. com/file2 
hadoop fs -count -q hdfs://nnl. example. com/filel 
hadoop fs -count -q -h hdfs://nnl. example. com/filel 
hdfs dfs -count -q -h -v hdfs://nn1. example. com/filel 
返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


10. cp 


用 法 : hadoop fs -cp [-f] [-p | -p[topax]] URI [URI …] <dest> 
功能 : 将 文件 复制 到 目标 路 径 , 这 个 命令 允许 同时 复制 多 个 文件 ,但 是 在 这 种 情况 下 
目标 路 径 必 须 是 一 个 目录 。 
如 果 下 列 要 求 被 满足 , 则 在 复制 时 可 以 保留 “raw. * ”命名 空间 扩展 属性 : 
(1) 源 文件 系统 和 目标 文件 系统 支持 ( 仅 限 HDFS) 。 
(2) 所 有 源 路 径 名 和 目标 路 径 名 都 在 /. reserved/raw 层次 结构 下 。 
选项 : -{ ” 当 文 件 存在 时 ,进行 覆盖 。 
-p 将 权限 .所 属 组 .时 间 惟 、.ACL 以 及 xattr 等 也 进行 复制 。 
用 例 : hadoop fs -cp /user/hadoop/filel /user/hadoop/file2 
hadoop fs -cp /user/hadoop/filel /user/hadoop/file2 /user/hadoop/dir 
返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


11. df 


用 法 : hadoop fs -df [-h] URI [URI ---] 
功能 : 显示 剩余 空间 。 
选项 : -h 将 文件 大 小 的 数值 用 方便 阅读 的 形式 表示 ,比如 用 64. OM 代 蔡 67108864。 
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用 例 : hadoop dfs -df /user/hadoop/dirl 
12. du 


用 法 : hadoop fs -du [-s] [-h] URI [URI…] 
功能 : 如 果 参 数 为 目录 ,显示 该 目录 下 所 有 目录 和 文件 的 大 小 ;如 果 参 数 为 单个 文 
件 , 则 显示 文件 大 小 。 
HET. -s 指 输出 所 有 文件 大 小 的 累加 和 ,而 不 是 每 个 文件 的 大 小 。 
-h 会 将 文件 大 小 的 数值 用 方便 阅读 的 形式 表示 ,比如 用 64. 0M ARE 67108864。 
用 例 : hadoop fs -du /user/hadoop/dirl /user/hadoop/filel 
返回 值 : 成 功 返回 0, 出现 错误 返回 一 1。 


13. find 


用 法 : hadoop fs -find <path> … <expression> + 

功能 : 查找 满足 表达 式 的 文件 和 文件 夹 。 如 果 path 没有 配置 ,默认 的 就 是 当前 目 
录 , 如 果 expression 没有 配置 , 则 默认 为 -print。 

选项 ; -name pattern ”如 果 文 件 名 匹配 pattern 则 处 理 , 不 区 分 大 小 写 。 
-iname pattern 如 果 文 件 名 匹配 pattern 则 处 理 , 大 小 写 敏感 。 


-print 将 当前 路 径 名 写 入 标准 输出 。 
-print0 将 当前 路 径 名 写 人 到 标准 输出 ,并 追加 一 个 ASCI 空 字符 。 


用 例 : hadoop fs -find / -name test -print 
返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


14. get 


用 法 : hadoop fs -get [-ignoreere] [-cre] <sre> <localdst> 

功能 : 将 文件 复制 到 本 地 文件 系统 。CRC 校 验 失败 的 文件 可 通过 -ignorecrc 选项 复 
制 。 文 件 和 CRC 校 验 和 可 通过 -crc 选项 一 起 复制 。 

用 例 : hadoop fs -get /user/hadoop/file localfile 
hadoop fs -get hdfs://nn. example. com/user/hadoop/file localfile 

返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


15. help 


用 法 : hadoop fs -help 
功能 : 返回 使 用 输出 。 


16. Is 


用 法 : hadoop fs -ls [-d] [-h] [-R] [-t] [-S] [-r] [-u] <args> 
功能 : 对 于 一 个 文件 ,该 命令 返回 的 内 容 以 如 下 格式 列 出 : 文件 权限 , 复 本 个 数 ,用 
户 ID, 组 ID, 文件 大 小 ,最 近 一 次 修改 日 期 .最近 一 次 修改 时 间 ,文件 名 。 
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对 于 一 个 目录 ,该 命令 返回 这 一 目录 下 的 第 一 层 子 目录 和 文件 ,与 UNIX 中 ls 
命令 的 结果 类 似 ,返回 的 内 容 以 如 下 格式 列 出 : 文件 权限 ,用 户 ID, 组 ID, i 
近 一 次 修改 日 期 ,最 近 一 次 修改 时 间 ,文件 名 。 一 个 目录 的 文件 通过 默认 的 文 
件 名 排序 。 

选项 : -d 以 纯 文 件 的 形式 展示 目录 。 
-h 将 文件 大 小 的 数值 用 方便 阅读 的 形式 表示 ,比如 用 64.0M 代替 67108864. 
-R 递归 地 列 出 子 目录 。 
-t ”修改 时 间 排 序 输出 (最 近 的 )。 
-S 文件 大 小 排序 输出 。 
-r 倒序 排序 。 
-u ”使 用 访问 时 间 而 不 是 修改 时 间 显示 和 排序 。 

用 例 : hadoop fs -ls /user/hadoop/filel 

返回 值 : 成 功 返回 0, 出现 错误 返回 一 1。 


17. mkdir 


用 法 : hadoop fs -mkdir [-p] <paths> 
功能 : W<paths> 中 的 URI 作为 参数 ,创建 目录 。 
选项 : -p 与 UNIX 中 mkdir -p 的 用 法 相似 。 这 一 路 径 上 的 父 目录 如 果 不 存在 , 则 创 
建 父 目录 。 
用 例 : hadoop fs -mkdir /user/hadoop/dirl /user/hadoop/dir2 
hadoop fs -mkdir hdfs://nnl. sample. com/dir hdfs://nn2. sample. com/dir 
返回 : 成 功 返回 0, 出 现 错误 返回 一 1。 


18. moveFromLocal 


用 法 : hadoop fs -moveFromLocal <localsre> <dst> 
功能 : 与 put 命令 类 似 ,但 是 本 地 源 文 件 复制 之 后 自身 会 被 删除 。 


19. moveToLocal 


用 法 : hadoop fs -moveToLocal [-crc] <sre> <dst> 
功能 : 暂 未 实现 此 命令 。 


20.nv 


用 法 : hadoop fs -mv URI [URI …] <dest> 

功能 : 将 文件 从 源 路 径 移 动 到 目标 路 径 (移动 之 后 源 文件 被 删除 ) 。 目 标 路 径 为 目录 
的 情况 下 , 源 路 径 可 以 有 多 个 。 跨 文件 系统 的 移动 (本 地 到 HDFS 或 者 反 过 
来 ) 是 不 允许 的 。 

用 例 : hadoop fs -mv /user/hadoop/filel /user/hadoop/file2 
hadoop fs -mv hdfs://nn. example. com/filel hdfs://nn. example. com/file2 
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hdfs://nn. example. com/file3 hdfs://nn. example. com/dirl 


返回 值 : 成 功 返回 0, 出 现 错误 返回 一 1。 
21. put 


用 法 : 
功能 : 


用 例 : 


hadoop fs -put <localsre> … <dst> 

将 单个 的 源 文件 src 或 者 多 个 源 文 件 srcs 从 本 地 文件 系统 复制 到 目标 文件 系 
统 中 (一 dst> 对 应 的 路 径 ) 。 也 可 以 从 标准 输入 中 读 取 输入 并 写 入 目标 文件 
系统 中 。 

hadoop fs -put localfile /user/hadoop/hadoopfile 

hadoop fs -put localfilel localfile2 /user/hadoop/hadoopdir 

hadoop fs -put localfile hdfs://nn. example. com/hadoop/hadoopfile 

hadoop fs -put - hdfs;//nn, example. com/hadoop/hadoopfile 


返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


22. rm 


用 法 : 
功能 : 
选项 : 


用 例 : 


hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI …] 

删除 参数 指定 的 文件 。 

-f 如 果 文 件 不 存在 , 则 不 显示 诊断 信息 和 修改 退出 状态 来 反映 错误 。 

-R 递归 地 删除 目录 和 目录 下 的 内 容 。 

-r 和 -R 的 功能 一 样 。 

-skipTrash 会 绕 过 回收 站 ,如果 启用 ,会 立即 删除 指定 的 一 个 或 多 个 文件 , 当 需 
要 删除 来 自 超额 目录 的 文件 时 可 以 使 用 这 个 选项 。 

hadoop fs -rm hdfs://nn. example. com/file /user/hadoop/emptydir 


返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 


23. rmdir 


用 法 : 
功能 : 
选项 : 
用 例 : 


hadoop fs -rmdir [—ignore-fail-on-non-empty ] URI [URI …] 

删除 目录 。 

—ignore-fail-on-non-empty 如 果 目 录 还 包含 文件 ,使 用 通配符 不 会 失败 。 
hadoop fs -rmdir /user/hadoop/emptydir 


24. setrep 


用 法 : 
功能 : 


选项 : 


用 例 : 


hadoop fs -setrep [-R] [-w] <numReplicas> <path> 

改变 一 个 文件 的 复 本 个 数 。 如 果 路 径 是 一 个 目录 ,这 个 命令 递归 地 改变 在 这 
个 根 目录 下 所 有 文件 的 复 本 个 数 。 

-w 请求 命 令 等 待 复 制 完成 ,这 可 能 需要 花费 很 长 的 时 间 。 

-R 可 以 对 一 个 目录 下 的 所 有 目录 和 文件 递归 地 执行 改变 复 本 个 数 的 操作 。 
hadoop fs -setrep -w 3 /user/hadoop/dirl 
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返回 值 : 成 功 返 回 0, 出 现 错误 返回 一 1。 
25. tail 


用 法 : hadoop fs -tail [-f] URI 

功能 : 显示 最 后 1kb 的 内 容 。 

选项 : -的 用 法 与 UNIX 类 似 , 也 就 是 说 当 文件 尾部 添加 了 新 的 数据 或 者 做 出 了 修 
改 时 ,在 标准 输出 中 也 会 刷新 显示 。 

用 例 : hadoop fs -tail pathname 

返回 值 : 成 功 返回 0, 出 现 错误 返回 一 1。 


26. text 


用 法 : hadoop fs -text <sre> 
功能 : 将 文本 文件 或 者 某 些 格式 的 非 文本 文件 通过 文本 格式 输出 。 允 许 的 格式 有 
zip 和 TextRecordInputStream 。 


27. touchz 


用 法 : hadoop fs -touchz URI [URI …] 
功能 : 创建 一 个 大 小 为 0 的 文件 。 

用 例 : hadoop fs -touchz pathname 
返回 值 : 成 功 返回 0, 出 现 错误 返回 一 1。 


28. truncate 


用 法 : hadoop fs -truncate [-w] <length> <paths> 
功能 : 将 文件 按照 length 进行 截取 ,可 以 理解 成 截取 [1/length] 部 分 。 
选项 : -w ”请 求 命 令 等 待 块 恢复 完成 。 没 有 -w 标志 时 , 当 人 恢复 正在 进行 的 时 候 ,这 
个 文件 可 能 保持 非 关 闭 状态 一 段 时 间 。 在 此 期 间 文件 不 能 再 打开 追加 
内 容 。 
用 例 : hadoop fs -truncate 55 /user/hadoop/filel /user/hadoop/file2 
hadoop fs -truncate -w 127 hdfs://nnl. example. com/user/hadoop/filel 


29. usage 


用 法 : hadoop fs -usage command 

功能 : 返回 命令 的 help 信息 。 

HDFS 文件 系统 提供 了 大 数据 分 析 的 分 布 式 数据 存储 与 访问 功能 。 以 HDFS 为 基 
fill. MapReduce 提供 了 一 种 分 布 式 数据 处 理 编程 范式 ,YARN 提供 了 分 布 式 计 算 任务 的 
资源 调度 功能 。 三 者 有 机 结合 ,组 成 了 Hadoop 大 数据 分 析 处 理 框 架 。 
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对 相互 间 不 具有 计算 依赖 关系 的 大 数据 ,实现 并 行 最 自然 的 办 法 就 是 采取 分 而 治之 
的 策略 。MapReduce 的 核心 思想 是 : 将 处 理 过 程 中 的 两 个 主要 处 理 阶 段 提 炼 为 一 种 抽象 
的 操作 机 制 ,借鉴 函数 式 程序 设计 语言 Lisp 中 的 思想 ,定义 了 Map 和 Reduce 两 个 抽象 
的 操作 函数 。Map 阶段 主要 负责 数据 的 处 理 并 转化 成 中 间 结 果 ,Reduce 阶段 主要 负责 收 
集中 间 结 果 并 计算 输出 。Map 和 Reduce 函数 在 算法 处 理 中 承担 的 任务 角色 如 图 9-4 
所 示 。 





>》 大 量 数据 记录 /元 素 进行 重复 处 理 
> 对 每 个 数据 记录 /元 素 作 感 兴趣 的 处 理 ,获取 | > Map 
> 感 兴趣 的 中 间 结果 信息 





> 排序 和 整理 中 间 结 果 以 利 后 续 处 理 


图 9-4 Map 和 Reduce 函数 在 算法 处 理 中 承担 的 任务 角色 








。 上 升 到 抽象 模型 : Mapper 与 Reducer。MPI 等 并 行 计 算 方法 缺少 高 层 并 行 编程 
模型 ,为 了 克服 这 一 缺陷 ,MapReduce 借鉴 了 Lisp 函数 式 语言 中 的 思想 ,用 Map 
和 Reduce 两 个 函数 提供 了 高 层 的 并 行 编程 抽象 模型 。 
。 上升 到 构架 : 统一 构架 ,为 程序 员 隐 藏 系统 层 细节 。MPI 等 并 行 计算 方法 缺少 统 
一 的 计算 框架 支持 ,程序 员 需 要 考虑 数据 存储 .划分 .分 发 .结果 收集 .错误 恢复 等 
诸多 细节 。 为 此 ,MapReduce 设计 并 提供 了 统一 的 计算 框架 ,为 程序 员 隐 藏 了 绝 
大 多 数 系统 层面 的 处 理 细 节 。 
下 面 从 人 逻辑 实体 的 角度 回顾 下 MapReduce 的 运行 机 制 ,按照 时 间 顺 序 包括 输入 分 片 
(input split) 阶段 .Map 阶段 .Combiner 阶段 ,Shuffle 阶段 和 Reduce 阶段 。 
(1) 输入 分 片 Cinput split) 阶 段 。 在 进行 Map 计算 之 前 ,MapReduce 会 根据 输入 文 
件 计算 输入 分 片 ,每 个 输入 分 片 针 对 一 个 Map 任务 .输入 分 片 存储 的 并 非 数 据 本 身 , 而 是 
一 个 分 片 长 度 和 一 个 记录 数据 的 位 置 的 数组 ,假设 有 3 个 输入 文件 A、B、C, 大 小 分 别 是 
7MB、67MB 和 127MB, 那 么 MapReduce 会 把 文件 A 分 为 一 个 输入 分 片 ,文件 B 则 是 两 
个 输入 分 片 ,而 文件 C 也 是 两 个 输入 分 片 。 显 而 易 见 ,如 果 在 Map 计算 前 做 输入 分 片 调 
整 (合并 小 文件 ) ,那么 就 会 有 5 个 Map 任务 执行 并 处 理 大 小 不 均 的 数据 。 
(2) Map 阶段 。 由 程序 员 编写 Map 函数 ,相对 好 控制 ,一 般 在 数据 存储 节点 上 做 本 
地 化 操作 。 
(3) Combiner 阶段 。 这 个 阶段 是 程序 员 可 以 选择 的 ,是 一 个 本 地 化 的 Reduce 操作 。 
作为 Map 的 后 续 操 作 , 主 要 是 在 Map 计算 出 中 间 文 件 前 做 一 个 简单 的 合并 重复 key 值 
的 操作 。 在 Reduce 操作 前 对 相同 的 key 做 合并 操作 会 大 幅 减 少 文件 大 小 ,提高 传输 
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(4) Shuffle 阶段 。 是 将 Map 的 输出 作为 Reduce 的 输入 的 过 程 ,也 是 MapReduce 算 
法 需要 重点 进行 优化 的 地 方 。 

(5) Reduce 阶段 。 由 程序 员 编写 Map 函数 ,计算 最 终结 果 并 输出 到 HDFS 上 。 

MapReduce 是 Hadoop 体系 中 用 于 编写 大 数据 并 行程 序 的 软件 框架 。 在 这 个 框架 
中 ,用 户 可 以 专注 于 程序 本 身 的 功能 ,而 不 用 在 如 何 将 程序 并 行 化 上 花费 太 多 精力 。 通 常 
来 说 ,一 个 MapReduce 作业 会 利用 Map 将 输入 数据 划分 为 独立 的 块 并 完全 独立 地 处 理 。 
在 Map 处 理 完 数据 之 后 ,框架 将 Map 的 输出 排序 ,并 作为 Reduce 的 输入 。 一 般 来 说 输 
入 和 输出 都 存放 在 同一 个 文件 系统 中 。 

MapReduce 通过 键 值 对 二 key，value 二 的 方式 来 进行 计算 。 也 就 是 说 , 在 
MapReduce 中 ,输入 数据 全 部 被 当 作 二 key,value 二 的 格式 进行 处 理 ,输出 也 是 二 key， 
value 二 的 格式 。key 和 value 的 类 都 实现 了 Writeable 接口 ,因此 都 是 可 序列 化 的 ,这 样 
才能 将 中 间 结 果 和 输出 写 到 文件 系统 中 。 另 外 ,由 于 key 需要 进行 比较 与 排序 ,因此 需要 
实现 WritableComparable 接口 。MapReduce 自 带 若干 key 和 value 的 类 ,都 实现 了 相应 
的 接口 。 














9.3.1 MapReduce 程序 实例 : WordCount 


WordCount 是 一 个 单词 计数 程序 ,功能 是 计算 指定 文件 夹 内 的 文件 内 容 中 不 同 单词 
出 现 的 次 数 。 
程序 代码 如 下 : 


import java.io.IOException; 

import java.util.StringTokenizer; 

import org.apache .hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache .hadoop.io.Text; 

import org.apache .hadoop.mapreduce.Job; 

import org.apache .hadoop.mapreduce .Mapper; 

import org.apache .hadoop.mapreduce.Reducer; 

import org.apache .hadoop.mapreduce.1lib.input.FileInputFormat; 
import org.apache .hadoop.mapreduce.1lib.output .FileOutputFormat; 


public class WordCount { 
public static class TokenizerMapper 
extends Mapper< Object, Text, Text, IntWritable> { 
private final static IntWritable one=new IntWritable (1); 


private Text word=new Text (); 


public void map (Object key, Text value, Context context 
) throws IOException, InterruptedException { 
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StringTokenizer itr=new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) { 
word. set (itr.nextToken ()) 


context .write (word, one); 


public static class IntSumReducer 
extends Reducer< Text, IntWritable, Text, IntWritable> { 
private IntWritable result=new IntWritable(); 
public void reduce (Text key, Iterable< IntWritable>values, Context 
context) throws IOException, InterruptedException{ 
int sum=0; 
for (IntWritable val : values) { 
sum +=val.get(); } 
result.set (sum) ; 


context.write (key, result); 


public static void main(String[] args) throws Exception { 
Configuration conf= new Configuration (); 
Job job=Job.getInstance (conf, "word count"); 
job.setJarByClass (WordCount.class) ; 
job.setMapperClass (TokenizerMapper .class) ; 
job.setCombinerClass (IntSumReducer.class) ; 
job.setReducerClass (IntSumReducer.class) ; 
job.setOutputKeyClass (Text .class) ; 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat .addInputPath (job, new Path(args[0])); 
FileOutputFormat.setOutputPath (job, new Path (args[1])); 
System.exit (job.waitForCompletion (true)? 0:1); 


} 
将 此 程序 打包 成 we. jar, 那 么 就 可 以 通过 如 下 脚本 来 运行 WordCount 程序 : 
hadoop jar wc.jar WordCount inputDirURL outputDirURL 


其 中 we. jar 代表 要 运行 的 程序 , WordCount 指定 了 入 口 类 ,inputDirURL 指定 了 需要 进 
行 词 数 统计 的 文件 所 在 的 文件 夹 路 径 ,outputDirURL 指定 了 统计 结果 的 输出 路 径 。 


9.3.2 Hadoop Streaming 
Hadoop Streaming 是 标准 Hadoop 发 行 版 的 一 个 组 件 ,可 以 让 用 户 指定 任意 的 可 执 
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行程 序 或 脚本 作为 Mapper 或 Reducer 来 执行 MapReduce 程序 。 一 个 显而易见 的 好 处 
是 ,通过 Hadoop Streaming, 用 户 的 变 成 语言 将 不 再 局 限于 Java, 而 可 以 使 用 Python, 
Linux shell 等 一 系列 语言 和 工具 。 

在 Hadoop Streaming 中 ,数据 以 标准 输入 /标准 输出 的 形式 进行 交互 。Mapper 从 标 
准 输入 接收 要 处 理 的 数据 ,经 过 处 理 后 的 中 间 结 果 逐 行 输出 到 标准 输出 ;Reducer 从 标准 
输入 逐 行 接收 中 间 结 果 ,进行 汇总 后 再 逐 行 输出 到 标准 输出 。mapper 的 初始 化 .数据 的 
分 发 等 由 Hadoop Streaming 来 完成 。 

Hadoop Streaming 的 使 用 实例 如 下 : 


hadoop jar hadoop- streaming- 2.7.0.jar \ 
-input myInputDirs \ 
-output myOutputDir \ 
-mapper myMapper .py \ 
— reducer myReducer.py 
这 个 实例 的 功能 读 取 myInputDirs 文件 夹 下 文件 的 内 容 , 逐 行 输出 到 标准 输出 ,并 调 
用 myMapper. py 对 这 些 内 容 进行 处 理 ,接着 调用 myReducer. py 处 理 中 间 结 果 , 然 后 接 
收 汇 总 结果 最 终 输出 到 myOutputDir。 这 里 的 myMapper. py 与 myReducer. py 是 用 户 
根据 自己 的 应 用 需求 编写 的 Python 程序 。 


94 基于 Storm 的 分 布 式 实时 计算 


9.4.1 Storm 简介 


Strom 是 Apache 基金 下 的 一 个 免费 、 开 源 分 布 式 实时 计算 项 目 。 与 其 他 实时 大 数据 
分 析 处 理 技 术 不 同 ,Storm 可 以 进行 流 式 数 据 的 实时 分 析 预 处 理 。Storm 可 以 用 于 实时 
分 析 、 在 线 机 器 学 习 、 持 续 计 算 、 分 布 式 远程 过 程 调 用 (Remote Procedure Call, RPC). 3X 
据 提 取 - 转 换 -加 载 (Extraction-Transformation-Loading) 等 。Storm 具有 在 单个 节点 上 每 
秒 处 理 百 万 级 数据 元 组 的 能 力 ,同时 它 具 有 高 度 可 扩展 性 、 容 错 性 ,因此 非常 易于 使 用 和 
部 署 。 


9.4.2 Storm 基本 概念 


一 个 Storm 应 用 程序 对 应 的 分 布 式 计算 结构 称 为 Topology, 这 也 是 Strom 中 最 重要 
的 概念 。 一 个 topology 由 Spout( 数 据 发 生 器 )、Bolt( 数 据 计 算 单元 ) 组 成 。 数 据 以 流 的 
方式 从 数据 源 进入 Spout, 并 转换 为 多 个 Tuple 组 成 的 stream, 分 发 到 不 同 的 Bolt 进 下 计 
算 。 一 个 典型 的 Topology 如 图 9-5 所 示 。 

由 于 Spout 的 存在 ,Storm 可 以 处 理 不 同 的 数据 流 来 源 。 实 际 上 ,将 数据 流转 换 为 
Tuple 流 的 工作 就 在 Spout 中 完成 ,而 且 主 要 依靠 代码 编写 者 来 完成 。Storm 可 以 处 理 
的 数据 源 包括 : 

。 Web 日 志 。 
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图 9-5 Strom 中 Topology 结构 示意 图 





。 社交 网 络 消息 流 。 
。 传感器 的 实时 数据 流 。 

当然 ,只 要 能 在 Spout 中 编写 合适 的 转换 代码 ,Storm 也 可 以 其 他 类 型 的 流 数 据 。 在 
设计 Storm 程序 时 ,不 建议 在 Spout 中 添加 数据 计算 的 功能 ,而 建议 Spout 只 负责 转换 ， 
计算 代码 全 部 放 到 Bolt 中 去 。 

Bolt 的 功能 则 是 订阅 (subscribe) 一 个 或 多 个 Tuple 流 ,执行 计算 ,然后 输出 一 个 或 多 
个 Tuple 流 。 通 过 订阅 一 个 或 多 个 Spout/Bolt 发 射 的 Tuple 流 ,Storm 可 以 构建 非常 复 
杂 的 Tuple 流 网 络 。 如 在 图 9-5 中 ,Bolt C 接收 Spout A 和 Spout B 发 出 的 Tuple 流 , 执 
行 计算 完毕 后 转换 为 新 的 Tuple 流 并 发 射 到 Bolt E。 

Bolt 可 以 执行 的 功能 包括 : 

。 数据 过 滤 。 

。 函数 计算 。 

。 数据 聚合 (aggregation) 与 连接 (join) 。 

。 数据 库 读 写 等 。 

在 Storm 中 ,数据 流 Stream 不 停 地 从 Spout 产生 并 发 射 到 Bolt 运行 。 虽 然 同一 
数据 是 有 序 地 从 Spout 按照 topology 的 拓扑 结构 流 经 各 个 Bolt 的 ,但 在 同一 时 刻 ,Spout 
与 Bolt 可 以 并 行 地 处 理 不 同 的 数据 。Storm 的 并 行 不 仅 体 现在 Spout 与 Bolt 的 拓扑 结 
构 中 ,同样 体现 在 Spout 与 Bolt 的 内 部 。 每 一 个 Spout Bk Bolt 都 可 以 利用 一 个 或 多 个 任 
务 (Task) 来 完成 ,而 Task 是 并 行 地 执行 在 集群 的 工作 节点 上 的 。 图 9-6 展示 了 Spout, 
Bolt 与 Task 之 间 的 示意 图 ,其 中 Spout 由 两 个 Task 实现 ,Bolt A,B,C 分 别 由 4、3、2 个 
Task 实现 ,整个 Topology 使 用 了 11 个 Task( 在 图 中 以 圆圈 表示 )。 每 一 个 Task 在 实际 
的 机 器 上 由 一 个 线程 (thread) 来 运行 。 


1. Storm 集群 架构 
Storm 优秀 的 实时 处 理性 能 依赖 于 其 专门 针对 流 数 据 处 理 而 设计 的 架构 。 一 
Topology 可 能 包含 若干 个 Task, 那 么 ,这 些 Task 是 如 何在 一 个 集群 上 协同 完成 一 个 分 
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图 9-6 Spout, Bolt 与 Task 的 关系 示意 图 


布 式 实时 计算 任务 的 呢 ? 下面 看 一 下 Storm 的 集群 架构 。 

图 9-7 展示 了 Storm 的 基本 集群 架构 。 其 中 主 节点 (Master Node) 与 工作 节点 
(Worker Node) 为 实际 的 集群 中 的 机 器 。 在 主 节 点 上 ,运行 守护 进程 Nimbus, 在 工作 节 
点 上 ,运行 守护 进程 Supervisors Nimbus 的 主要 功能 是 管理 .协调 和 监控 在 集群 中 运行 
的 Storm 应 用 程序 ,也 就 是 Topology. Supervisor 则 负责 接收 Nimbus 发 送 的 Topology 
以 及 生成 Worker 来 运行 相应 的 Task, ZooKeeper 的 主要 职责 是 在 分 布 式 环境 下 提供 集 
中 式 信息 维护 管理 服务 , 它 可 以 运行 在 不 同 的 集群 中 。 在 Storm 集群 中 ,ZooKeeper 主要 
用 来 提供 集群 状态 信息 的 维护 管理 ,数据 的 传输 并 不 是 ZooKeeper 负责 。 


(Master Node) 
ZooKeeper 


工作 节点 
(Worker Node) 
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图 9-7 Storm 集群 架构 
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2. Storm 安装 部 署 


Storm 运行 在 Java 虚拟 机 上 ,主要 接口 都 是 用 Java 语言 编写 的 ,但 在 开发 Storm 应 
用 程序 时 (Spout 和 Bolt) ,用 户 也 可 以 利用 其 他 语言 编写 。 另 外 ,Storm 的 后 台 程 序 和 管 
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理 命令 都 是 用 Python 启动 的 ,因此 在 安装 Storm 之 前 ,必须 先 安装 Java MAS Java 7) 和 
Python( 版 本 2. 6. 6) 语 言 支持 。 

Storm 可 以 运行 在 Linux 和 Windows 环境 下 ,这 里 简要 介绍 Storm 在 Linux (VA 
Ubuntu 为 例 ) 下 的 单 节点 伪 集 群 安装 部 署 。 多 节点 安装 部 署 及 高 级 配置 可 以 参考 Storm 
官方 文档 , 见 参考 文献 [4]。Storm 的 安装 流程 如 下 : 

(1) 安装 ZooKeeper。 

在 终端 CTerminal) 中 执行 如 下 命令 : 


sudo apt-get - yes install zookeeper=3.3.5* zookeeperd=3.3.5* 


此 命令 在 目标 系统 中 安装 二 进 制版 本 的 ZooKeeper, 并 会 生成 一 个 脚本 来 启动 和 关 
闭 ZooKeeper。 
(2) 安装 Storm。 
首先 下 载 Storm 发 行 版 (http://github. com/apache/storm/releases) Jf % 3 TE /usr/ 
share 目录 下 。 在 这 里 可 以 设 定 一 个 与 版 本 无 关 的 软 连接 (路 径 映射 ) ,将 Storm 的 可 执 
行程 序 连接 到 /usr/bin/storm 目录 下 。 
(3) 配置 Storm。 
Storm 的 配置 文件 是 conf/storm. yaml。 在 安装 一 个 新 的 伪 分 布 式 Storm 集群 时 ,下 
列 配置 是 需要 重新 定义 的 : 
storm. zookeeper.servers: 
- "localhost" 
nimbus.host: "localhost" 
supervisor.slots.ports: 
- 6700 
- 6701 
- 6702 
- 6703 
storm. local.dir: "/home/storm" 
(4) 启动 守护 进程 。 
在 终端 执行 如 下 命令 启动 Nimbus 守护 进程 : 


bin/storm nimbus 

在 终端 执行 如 下 命令 启动 Supervisor 守护 进程 : 
bin/storm supervisor 

在 终端 执行 如 下 命令 启动 Storm UI: 

bin/storm ui 


至 此 ,一 个 最 基本 的 单 节点 伪 分 布 式 Storm 集群 安装 完毕 并 运行 起 来 了 ,用 户 可 以 
从 http://localhost: 8080 查看 Storm 是 否 已 经 启动 运行 。Storm 的 运行 日 志 可 以 在 安 
装 目 录 的 logs 文件 夹 下 找到 。 
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9.4.3 Storm 编程 


本 节 用 两 个 例子 来 学 习 如 何 进行 Storm 编程 。Storm 编程 主要 分 为 两 个 步骤 。 第 一 
个 步骤 为 逻辑 设计 , 即 设计 整个 应 用 程序 需要 多 少 个 Spout, 多 少 个 Bolt. Spout 与 Bolt 
分 别 负责 什么 功能 ,Spout 与 Bolt 之 间 的 拓扑 链接 关系 如 何 。 第 二 个 步骤 是 编写 代码 实 
现 这 些 功 能 。 先 来 看 一 个 单词 计数 程序 。 


1. 在 线 单词 计数 


在 线 单词 计数 的 功能 是 从 一 个 不 停产 生 文本 的 数据 源 获取 数据 ,并 对 其 中 包含 的 单 
词 进 行 计数 。 与 MapReduce 不 同 ,Storm 的 数据 源 并 非 HDFS 文件 ,而 是 实时 数据 源 。 
一 个 简单 的 单词 计数 Storm 程序 的 Topology 如 图 9-8 所 示 。 


4 —> y—+ W—- § 
语句 Spout 分 词 Bolt 计数 Bolt 上 报 Bolt 
图 9-8 单词 计数 程序 Topology 


各 个 组 件 的 功能 如 下 : 

。 语句 Spout。 获 取 数据 源 的 文本 ,并 向 后 端 发 射 一 个 字符 串 ,在 本 例 中 ,使 用 一 个 
静态 字符 串 数组 循环 发 射 来 模拟 实时 数据 流 。 

分 词 Bolt。 获 取 语 句 Spout 发 射 的 字符 串 , 并 将 字符 串 分 割 成 单词 的 序列 ,向 后 
发 射 。 

计数 Bolt。 获 取 分 词 Bolt 发 射 的 单词 ,并 累计 每 个 单词 出 现 的 次 数 ,同时 向 后 发 
射 当前 时 刻 该 单词 的 计数 。 

。 上报 Bolt。 获 取 计 数 Bolt 发 射 的 词语 及 计数 ,并 在 终端 输出 。 

代码 实现 如 下 。 


(1) SentenceSpout. java, 实 现 语 句 Spout。 从 一 个 数组 循环 读 取 字 符 串 模拟 实时 数 
据 流 。 字 符 串 发 射 间隔 为 10ms。 发 射 的 Tuple 格式 为 {"sentence" : "字符 串 内 容 ")。 


public class SentenceSpout extends BaseRichSpout { 
private SpoutOutputCollector collector; 
private String[] sentences={ 
"this is my first storm program", 
"it counts the words in sentences", 
"it is fast", 
"I enjoy programing with storm" 
Me 


private int index=0; 
public void nextTuple() { 


this.collector.emit (new Values (sentences [index])); 


index+ +; 
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index= indexs sentences.length; 
try { 
Thread.sleep (1); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


public void open (Map config, TopologyContext context, SpoutOutputCollector 
collector) { 


this.collector= collector; 


public void declareOutputFields (OutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("sentence") ) ; 


} 


(2) SplitBolt. java, 实 现 分 词 Bolt, 主 要 功能 为 接收 句子 Spout 发 来 的 字符 串 并 以 空 
格 切 分 为 单词 ,向 后 发 射 , 发 射 格式 为 {"word" : "单词 内 容 "} 。 


public class SplitBolt extends BaseRichBolt{ 
private OutputCollector collector; 







public void execute (Tuple tuple) { 
String sent=tuple.getStringByField ("sentence"); 
String[] words=sent.split(""); 
for (String w : words) 


collector.emit (new Values (w)) 7 


public void prepare (Map config, TopologyContext context, OutputCollector collector) { 


this.collector= collector; 


public void declareOutputFields (OutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("word") ); 


} 


(3) CountBolt. java, 实 现 计数 Bolt, 主 要 功能 为 接收 分 词 Bolt 发 来 的 单词 并 利用 一 
个 HashMap 计数 ,然后 将 计数 结果 向 后 发 射 ,发 射 格式 为 {"word": "单词 内 容 "; 
"count": 单词 计数 } 。 


public class CountBolt extends BaseRichBolt{ 
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private OutputCollector collector; 
private HashMap< String, Long> counts; 


public void execute (Tuple tuple) { 
String word=tuple.getStringByField ("word") ; 
Long c=1L; 
if (counts.containsKey (word) ) 
c +=counts.get (word) ; 
counts.put (word, c); 


this.collector.emit (new Values (word, c) )7 


public void prepare (Map config, TopologyContext context, OutputCollector 
collector) { 

this.collector= collector; 

counts= new HashMap< String, Long> (); 


public void declareOutputFields (OutputFieldsDeclarer declarer) { 


declarer.declare (new Fields ("word", "count") ); 


} 


(4) PrintBolt, java, 实 现 打 印 Bolt, 主 要 功能 为 打印 最 终结 果 到 终端 ,这 个 Bolt 并 不 
向 后 发 射 任何 Tuple, 因 此 其 declareOutputFields 方法 无 须 具 体 实 现 。 


public class PrintBolt extends BaseRichBolt{ 
private HashMap< String, Long> counts; 


public void execute (Tuple tuple) { 
String word=tuple.getStringByField ("word"); 
Long c= tuple.getLongByField ("count") ;; 


counts.put (word, Cc); 


public void prepare (Map config, TopologyContext context, OutputCollector 
collector) { 
counts= new HashMap< String, Long> (); 


public void cleanup () { 
System.out.println ("Word Counts:"); 
Iterator< Entry< String, Long>>it=this.counts.entrySet () .iterator (); 
while (it.hasNext ()){ 
Entry en=it.next (); 
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System.out.print1n (en.getKey() +"\t" +en.getValue()); 
} 
System. out .print1n ("-----------—- END--------—— "); 
} 
public void declareOutputFields (OutputFieldsDeclarer declarer) { } 
k 


这 里 展示 了 一 个 Storm 单词 计数 程序 的 主要 组 件 (Spout，Bolt) 的 实现 。 要 让 这 个 
程序 在 Storm 运行 ,还 需要 设计 Topology, 将 这 些 组 件 连接 起 来 ,然后 提交 到 Storm, A 
例 中 Topology 的 主要 代码 实现 如 下 : 


public class WordCountTopology{ 
private static final String SENTENCE SPOUT ID= "sent- spout"; 
private static final String SPLIT_BOLT_ID="split-bolt"; 
private static final String COUNT_BOLT_ID="count-bolt"; 
private static final String PRINT_BOLT_ID="print-bolt"; 
private static final String TOPOLOGY_NAME="wordcount- topology"; 


public static void main (String[] args) throws InterruptedException{ 
SentenceSpout spout= new SentenceSpout () ; 
SplitBolt splitBolt=new SplitBolt(); 
CountBolt countBolt= new CountBolt () 7 
PrintBolt printBolt=new PrintBolt(); 


TopologyBuilder builder= new TopologyBuilder () ; 

builder.setSpout (SENTENCE _SPOUT_ID, spout, 2); 

builder.setBolt (SPLIT_BOLT_ID, splitBolt,2) .setNumTasks (4) . 
shuffleGrouping (SENTENCE_SPOUT_ID) ; 

builder.setBolt (COUNT BOLT ID, countBolt, 2) .setNumTasks (4) . 
fieldsGrouping (SPLIT BOLT ID, new Fields ("word") ); 

builder.setBolt (PRINT BOLT ID, printBolt, 2) .globalGrouping (COUNT_ 
BOLT_ID); 


Config conf=new Config (); 
LocalCluster cluster=new LocalCluster (); 
cluster.submitThbpology (TOPOLOGY NAME, conf, builder.createTopology ()); 


Thread. sleep (10000) ; 


cluster . kill Topology (TOPOLOGY_NAME) ; 
cluster . shutdown () ; 
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在 Topology 的 实现 中 ,组 件 之 间 的 关联 关系 以 代码 的 方式 体现 出 来 了 。 例 如 : 


builder.setBolt (COUNT BOLT ID, countBolt, 2) .setNumTasks (4) . fieldsGrouping (SPLIT_BOLT_ 


ID, new Fields ("word") ) ; 


表示 CountBolt 从 SplitBolt 以 fieldsGrouping 的 方式 订阅 了 Tuple 流 , 所 有 从 SplitBolt 
发 射出 的 Tuple 都 会 被 送 到 CountBolt, fieldsGrouping 表示 这 些 Tuple 是 根据 word 的 
值 进行 分 组 的 ,相同 word 值 的 Tuple 会 被 分 配 到 同一 个 Task。 参 数 “2” 和 
setNumTasks(4) 表 示 CountBolt 由 2 个 Excutor 生成 4 个 Task 执行 。 因 此 这 个 Bolt 会 
产生 4 个 线程 并 行进 行 计数 。 

最 终 程序 的 输出 如 图 9-9 所 示 。 

在 本 例 中 ,10s 内 进行 了 约 2982 轮 , 也 就 是 约 11 928 个 句子 的 计数 。 考 虑 到 每 个 句 
子 发 射出 去 后 利用 代码 强制 休眠 了 lms, 这 个 实时 性 能 还 是 比较 高 的 。 


2. 在 线 SQL 注入 检测 


上 面 介绍 了 一 个 实时 单词 计数 程序 ,下 面 模拟 一 个 在 线 SQL 注入 检测 的 实例 。 同 样 
采用 一 个 循环 URL 字符 串 数 组 来 模拟 实时 的 URL 请 求 。 假 定 已 经 有 了 一 个 简单 的 
SQL 注入 检测 模型 ,如 图 9-10 所 示 。 
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in 2984 SELECT? 
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图 9-9 程序 输出 结果 图 9-10 SQL 注入 检测 模型 ( 样 例 ) 


图 9-10 展示 了 一 个 简单 的 SQL 注入 检测 模型 样 例 。 如 果 URL 参数 值 既 包含 
SELECT 也 包含 FROM, 则 该 URL 异常 ,如 果 URL 参数 值 不 包含 SELECT 但 包含 
UNION, 则 该 URL 异常 ,否则 该 URL 正常 (请 注意 ,这 只 是 一 个 用 于 示例 的 检测 模型 , 
并 不 能 真正 用 于 检测 SQL 注入 ,实际 应 用 中 的 SQL 注入 检测 模型 比 这 个 要 复杂 得 多 ) 。 

那么 ,如 何 将 这 个 检测 模型 转换 为 一 个 Storm 程序 呢 ? 

图 9-11 的 设计 思路 是 这 样 的 : 首先 利用 URL Spout 获取 实时 URL 并 发 射 ,然后 参 
数 提取 Bolt 对 接收 到 的 URL 进行 参数 提取 ,对 敏感 特征 SELECT, FROM, UNION 分 
别 构建 域 并 存放 在 Tuple 中 ,向 后 发 射 。SELECT_YES Bolt 是 一 个 过 滤 功 能 的 Bolt, H 
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有 参数 值 包含 SELECT fi) A 2 wR Ht Ba IT. SELECT_NO Bolt 同 理 。 因 此 虽然 
SELECT_YES Bolt 和 SELECT_NO Bolt 获取 到 的 Tuple 流 是 一 样 的 ,但 发 射出 去 的 
Tuple 流 是 不 同 的 。FROM_YES Bolt, FROM_NO Bolt, UNION_ YES Bolt, UNION_ 
NO Bolt 同 理 。 最 后 打印 Bolt 获取 所 有 输出 Tuple 流 并 打印 。 


FROM_YES 
Bolt 
Ag 打印 异常 
Bolt FROM 7 Bolt 


只 一 Ch Bolt 


ae YES &y 


Bolt 
we l; 打印 正常 
S; Bolt 


a 
Bolt 


图 9-11 SQL 注入 检测 程序 Topology 设计 





由 于 URL Spout 与 前 例 中 的 句子 Spout 基本 类 似 , 这 里 略 去 代码 。 
参数 Bolt 代码 如 下 : 


public class ParaBolt extends BaseRichBolt{ 
private OutputCollector collector; 


public void execute (Tuple tuple) { 
String url=tuple.getStringByField ("url"); 
boolean containsSELECT= contains (url, "SELECT") ; 
boolean containsFROM= contains (url, "FROM") ; 
boolean containsUNION= contains (url, "UNION") ; 
collector.emit (new Values(url, containsSELECT, containsFROM, 


containsUNION) ) ; 


public void prepare (Map config, TopologyContext context, OutputCollector 
collector) { 
this.collector=collector; 
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public void declareOutputFields (OutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("URL", "SELECT", "FROM", "UNION") ) ; 


public boolean contains (String url, String str) { 


return url.contains (str); 


} 
SELECT_YES Bolt 代码 如 下 : 


public class SelectYesBolt extends BaseRichBolt{ 
Private OutputCollector collector; 


public void execute (Tuple tuple) { 
String url= tuple.getStringByField ("url"); 
boolean containsSELECT=tuple.getBooleanByField ("SELECT") ; 
boolean containsFROM= tuple.getBooleanByField ("FROM") ; 
boolean containsUNION= tuple.getBooleanByField ("UNION"); 
if (containsSELECT) 
collector.emit (new Values (url, containsSELECT, containsFROM, 
containsUNION) ) ; 


public void prepare (Map config, TopologyContext context, OutputCollector 
collector) { 
this.collector= collector; 


public void declareOutputFields (OQutputFieldsDeclarer declarer) { 
declarer.declare (new Fields ("URL", "SELECT", "FROM", "UNION") ) ; 


} 
SELECT_NO Bolt, FROM_YES Bolt, FROM_NO Bolt,UNION_YES Bolt, UNION_ 


NO Bolt 的 实现 与 SELECT_YES Bolt 类 似 , 在 此 略 去 。 
打印 正常 URL 的 Bolt 的 实现 如 下 : 





public class PrintSQLBolt extends BaseRichBolt{ 
private ArrayList< String> urls; 


public void execute (Tuple tuple) { 
String url=tuple.getStringByField ("url"); 
urls.add (url) ; 
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public void prepare (Map config, TopologyContext context, OutputCollector 
collector) { 


urls=new ArrayList< String> (); 


public void cleanup () { 
for (String url : urls) { 
System.out.print1n ("SQL INJECTION URL: \t" +url); 


} 
public void declareOutputFields (OutputFieldsDeclarer declarer) { 
} 


} 


打印 正常 URL 的 Bolt 实现 类 似 , 在 此 略 去 。 
最 关键 的 部 分 是 Topology 的 实现 ,这 一 部 分 主要 在 于 构建 Spout 与 Bolt 之 间 的 链 
接 关系 ,关键 代码 如 下 : 


public class SQLTopology{ 


public static void main(String[] args) throws InterruptedException{ 


TopologyBuilder builder=new TopologyBuilder (); 
builder.setSpout (URL_SPOUT_ID, urlSpout) ; 
builder.setBolt (PARA BOLT ID, paraBolt) .shuffleGrouping(URL_SPOUT_ID); 


builder.setBolt (PRINT SQL BOLT ID, printSqlBolt) . globalGrouping 
(UNION YES BOLT_ID) .globalGrouping (FROM_YES BOLT ID); 

builder.setBolt (PRINT NOR BOLT ID, printNorBolt) . globalGrouping 
(UNION_NO_BOLT_ID) .globalGrouping (FROM NO_BOLT ID); 


} 


这 里 省 略 了 字符 串 常量 .Spout Bolt 以 及 若干 中 间 Bolt 连接 关系 的 定义 。 程 序 最 终 
输出 如 图 9-12 所 示 ,这 些 是 我 们 构造 的 实验 用 的 URL ,输出 与 期 望 的 结果 相符 。 














SQL INJECTION URL: http://www. excample. com/detail. jsp?id=1 +(SELECT 1 FROM (SELECT SLEEP (5))A)+ 
SQL INJECTION WRL: http://www. excample. com/detail. jsp?id=1 and 1=2 UNION 123 

SQL INJECTION URL: http://www. excample. com/detail. jsp?id=1’ +(SELECT 1 FROM (SELECT SLEEP(5))A)+’ 
SQL INJECTION URL: http://www. excample. com/detail. jsp?id=1 and 1=2 UNION 123 

SQL INJECTION URL: 站 1. jsp?id=1 +(SELECT 1 FROM (SELECT SLEEP (5))A)+ 
NORMAL URL: http://www. excample. com/detail. jsp?id=123 

NORMAL URL: http://www. excample. com/search jsp?keyword=select 

NORMAL URL: ht ‘www. excample. com/detail. jsp?id=123 

NORMAL URL: http://www. excample. com/search. jsp?keyword=select 











9-12 程序 输出 结果 
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95 基于 Spark Streaming 的 分 布 式 实时 计算 


在 9.4 节 中 介绍 了 如 何 利 用 Storm 进行 实时 流 数据 分 析 计 算 。 本 节 介 绍 另外 一 个 实 
时 流 数据 分 析 计算 引擎 。 


9.5.1 Spark 内 存 计算 框架 


内 存 计 算是 以 大 数据 为 中 心 ,依托 计算 机 硬件 的 发 展 ,依靠 新 型 的 软件 体系 结构 , 通 
过 将 数据 装 和 内存 中 处 理 , 而 尽量 避免 1/0 操作 的 一 种 新 型 的 以 数据 为 中 心 的 并 行 计算 
模式 。 在 应 用 层面 ,内 存 计算 主要 用 于 数据 密集 型 计算 的 处 理 , 尤 其 是 数据 量 极 大 且 需 要 
实时 分 析 处 理 的 计算 。 这 类 应 用 以 数据 为 中 心 ,需要 极 高 的 数据 传输 及 处 理 速 率 。 因 此 ， 
在 内 存 计算 模式 中 ,数据 的 存储 与 传输 取代 了 计算 任务 成 为 新 的 核心 。 

分 布 式 内 存 处 理 系 统 主要 处 理 机 器 学 习 、 图 算法 、 科 学 计算 等 问题 ,此 类 问题 在 并 行 
计算 的 同时 ,往往 涉及 结构 或 逻辑 上 的 依赖 关系 ,而 并 行 处 理 的 各 个 步骤 到 达 稳 定点 的 时 
间 不 同 ,因此 需要 在 并 行 的 计算 步 之 间 进 行 同步 控制 ,以 保证 结果 的 正确 性 。 常 见 的 同步 
方式 有 同步 计算 、 异 步 计算 和 混合 方式 。 目 前 ,大 多 数 内 存 计算 系统 采用 BSP 同步 ,部 分 
系统 采用 异步 机 制 。Spark 和 Pregel 都 采用 BSP 同步 机 制 , 而 基于 内 存 计算 的 分 布 式 内 
存 共享 图 处 理 系统 PowerGraph 则 采用 BSP 同步 和 异步 两 种 方式 。Trinity 同样 采用 
BSP 同步 和 异步 两 种 方式 。 典 型 内 存 计算 框架 的 同步 方式 如 表 9-10 所 示 。 


表 9-10 典型 内 存 计 算 框架 的 同步 方式 








内 存 计算 框架 同步 方式 内 存 计算 框架 同步 方式 
Spark 同步 计算 机 制 PowerGraph 混合 计算 机 制 
Pregel 同步 计算 机 制 Trinity 混合 计算 机 制 














MapReduce 计算 框架 模型 简单 ,实现 了 DAG( 有 向 无 环 图 ) 的 data flow 式 的 计算 ， 
不 能 有 效 处 理 有 环 的 计算 ,也 就 是 输入 同时 作为 输出 的 循环 计算 。Spark 主要 解决 的 问 
题 就 是 在 当前 的 分 布 式 计算 框架 中 不 能 有 效 处 理 迭 代 计 算 和 交互 式 计 算 两 类 问题 。 
Spark 更 适合 于 迭代 运算 比较 多 的 机 器 学 习 和 数据 挖掘 运算 ,这 也 是 其 目前 受到 广泛 关 
注 的 原因 。Spark 将 内 存 数据 抽象 成 RDD(Resilient Distributed Dataset ,弹性 分 布 式 数 
据 集 ) ,然后 在 内 存 不 足 时 ,利用 “最 近 最 少 使 用 ”(LRU) 内 存 替换 策略 协调 内 存 资源 。 同 
时 ,为 了 更 灵活 地 分 配 内 存 资源 ,Spark 可 以 通过 所 谓 的 RDD* 持 续 存 储 优先 权 ” 给 用 户 
一 定 的 管理 权限 。 

那么 Spark 是 如 何 实现 的 呢 ? 其 主要 的 思想 就 是 构建 一 个 RDD 把 所 有 计算 的 数据 
保存 在 分 布 式 的 内 存 中 。 在 迭代 计算 中 ,通常 情况 下 ,都 是 对 同一 数据 集 做 反复 的 迭代 计 
算 ,数据 保存 在 内 存 中 ,将 大 大 提高 性 能 。RDD 模型 的 产生 动机 主要 来 源 于 两 种 主流 的 
应 用 场景 : 

。 迭代 式 算法 。 如 迭代 式 机 器 学 习 、 图 算法 ,包括 PageRank k-means 聚 类 和 逻辑 回归 。 
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。 交互 式 数 据 挖掘 工具 。 用 户 在 同一 数据 子 集 上 运行 多 个 Adhoc 查询 。 

不 难看 出 ,这 两 种 场景 的 共同 之 处 是 : 在 多 个 计算 或 计算 的 多 个 阶段 间 重 用 中 间 结 
果 。 在 之 前 学 习 的 MapReduce 计算 框架 中 ,要 想 在 计算 之 间 重 用 数据 ,唯一 的 办 法 就 是 
把 数据 保存 到 外 部 存储 系统 中 , 即 中间 结 果 写 人 本 地 磁盘 。 这 就 导致 了 巨大 的 数据 复制 、 
磁盘 W/O、 序列 化 的 开销 ,甚至 会 占据 整个 应 用 执行 时 间 的 一 大 部 分 。 

下 面 以 MapReduce 中 的 经 典 例子 WordCount 为 例 解 释 Spark 执行 模型 ,整个 
WordCount Job 是 计算 README. md 这 个 文档 中 各 个 单词 出 现 的 频次 ,并 且 将 最 终结 
果 保 存 到 weresult 目录 中 去 。 下 面 以 WordCount 例子 来 说 明 Spark 执行 模型 。 





val wordCountResult= sc.textFile ("README.md", 4) .flatMap (line=>line.split (""")) 
-map (word=> (word, 1) ) .reduceByKey(_ + ,2) 
wordCountResult . saveAsTextFile ("wcresult") 
从 RDD DAG 的 角度 来 看 ,该 RDD DAG = 
要 是 包括 MappedRDD — FlatMappedRDD —> | 
MappedRDD- ShuffledRDD 这 4 个 RDD 的 转 
换 操 作 (transform) ,如 图 9-13 所 示 。 根 据 Spark | flatMap(line=>line split” ")) 





sc.textFile("README.md", r) 
MappedRDD 








全 








实现 ,RDD 的 转换 操作 是 不 会 提交 给 Spark 集 FlatMappedRDD 
群 来 执行 的 ,因此 ,上 面 的 操作 必须 由 Spark 的 g 
执行 操作 (action) 来 触发 ,因此 ,在 最 后 调用 | 








map(word=>(word, 1)) 
MappedRDD. 





saveAsTextFile 这 个 行为 来 将 整个 WordCount 
Job 提交 到 Spark 集群 中 来 执行 。 


9.5.2 Spark Streaming 简介 reduceByKey(_+_.2) 
ShuffledRDD 


Spark Streaming 是 Spark 核心 API 的 一 个 图 9-13 WordCount Job 的 RDD DAG 图 
扩展 ,用 于 支持 可 扩展 ,高 吞吐 率 \ 高 容错 性 的 实 
时 流 数 据 分 析 处 理 。 数 据 源 可 以 是 多 样 的 ,如 Kafka, Flume, Kinesis, TCP sockets 等 。 
这 些 数据 可 以 利用 Spark 自 带 的 各 类 算 子 如 map, reduce, join, window 等 进行 处 理 。 最 
后 ,经 过 处 理 的 数据 可 以 输出 到 文件 系统 .数据 库 、. 实 时 仪表 盘 等 。 图 9-14 展示 了 Spark 
Streaming 的 数据 处 理 流程 。 


X 
|a | 
Streaming 
Twitter 


图 9-14 Spark Streaming 数据 处 理 流程 


图 片 来 源 http://spark. apache. org/docs/latest/streaming-programming-guide. html 





一 




















在 Spark 中 ,数据 并 非 到 达 即 处 理 , 而 是 将 数据 划分 为 一 个 一 个 的 块 (bacth) ,然后 以 
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块 为 单位 处 理 。 因 此 Spark 只 能 算是 准 实时 的 流 数 据 计 算 , 但 这 样 可 以 提高 效率 。 块 的 
划分 越 细 ,实时 性 越 强 , 一 般 来 说 效率 越 低 ; 反 


实时 流 数据 Spark 
之 则 实时 性 降低 ,效率 提高 。 图 9-15 展示 了 Spe Strearhing 


Spark Streaming 分 块 对 流 数 据 计 算 的 过 程 : en 
1. Spark Streaming 基本 概念 


Spark Streaming 并 非 一 个 独立 的 项 目 ， Sc Sher 
ngine 
它 的 计算 引擎 依赖 于 Spark, 因此 Spark ARIES | | 


Streaming 实时 计算 只 有 在 部 署 了 Spark Wit 9-15 Spark Streaming 对 流 数据 

算 机 上 才能 运行 。 限 于 篇 幅 , 这 里 不 再 介绍 进行 分 块 计算 

Spark 的 安装 部 署 , 感 兴趣 的 读者 可 以 到 

Spark 官方 网 站 http://spark. apache. org/docs/latest/ 查 阅 相 应 的 文档 。 这 里 仅 对 相关 
的 若干 基本 概念 进行 介绍 。 

1) 弹性 分 布 式 数据 集 (RDD) 

RDD 是 Spark 的 核心 数据 结构 , 它 是 一 个 高 容错 性 的 可 并 行 处 理 元 素 的 集合 。 可 
以 通过 两 种 方式 建立 RDD: 一 是 将 程序 中 的 数据 集合 直接 并 行 化 ,二 是 从 外 部 存储 系 
统 中 引用 得 到 。 在 建立 RDD 之 后 ,就 可 以 以 并 行 的 方式 来 操作 RDD 中 存储 的 数据 
元 素 。 

2) 离散 化 数据 流 (DStream) 

DStream 是 Spark Streaming 的 核心 数据 结构 ,其 本 质 是 一 个 RDD 序列 。 这 与 
Storm 不 同 ,在 Storm 中 ,数据 流 的 基本 单元 是 Tuple, 也 就 是 数据 的 最 小 粒度 ,但 在 
Spark Streaming 中 ,DStream 的 基本 单元 是 RDD, 也 就 是 一 个 数据 块 (batch)。 直 观 上 来 
看 ,就 像 是 将 连续 的 数据 流 切 分 成 若干 数据 块 的 序列 ,因此 被 称 为 离散 化 数据 流 。 
图 9-16 展示 了 DStream 的 构成 。 


时 刻 0 到 时 | | 时 刻 1 到 时 | | 时 刻 2 到 时 | | 时 刻 3 到 时 
刻 ! 的 数据 | | 刻 2 的 数据 | | 刻 3 的 数据 | | 刻 4 的 数据 
T T T T T 
0 1 2 3 


2 4 ”时 间 
图 9-16 DStream 的 构成 


i 
E 
=| 











2. Spark Streaming 基本 操作 


Spark 程序 的 运行 过 程 实际 上 就 是 对 RDD 的 转换 过 程 。 同 样 Spark Steaming 程序 
的 运行 过 程 实 际 上 就 是 对 DStream 的 转换 过 程 。 用 户 无 须 关 心 如 何 将 这 些 转 换 并 行 化 ， 
只 需要 考虑 如 何 利 用 Spark Streaming 的 操作 实现 程序 的 功能 。 常 用 操作 如 表 9-11 
所 示 。 

DStream 还 有 更 多 其 他 的 操作 ,限于 篇 幅 这 里 不 一 一 阐述 ,读者 可 以 到 Spark 
Streaming 的 官网 阅读 参考 文献 [11] 。 
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# 9-11 DStream 基本 操作 
转换 算 子 J 能 
map(func) 利用 func 将 源 DStream 转换 为 一 个 新 的 DStream 并 返回 
flatMap(func) 与 map 相似 ,但 每 个 输入 项 都 可 以 映射 为 0 个 或 多 个 输出 项 





filter(func) 


将 源 DStream 中 符合 func 所 述 条 件 的 项 选择 出 来 并 组 成 一 个 新 的 
DStream 并 返回 





repartition(numPartitions) 


通过 创建 更 多 或 更 少 划分 更 改 当前 DStream 的 并 行 化 等 级 





union(otherStream) 


将 当前 Dstream 与 otherDStream 进行 union 操作 并 生成 一 个 新 的 
DStream 返回 





count() 


返回 一 个 单元 素 RDD 组 成 的 DStream。 该 DStream 中 每 一 个 RDD 的 元 
素 的 内 容 为 源 DStream 相应 RDD 所 包含 的 元 素 的 个 数 





reduce(func) 


返回 一 个 单元 素 RDD 组 成 的 DStream。 该 DStream 中 每 一 个 RDD 的 元 
素 的 内 容 为 通过 func 将 源 DStream 中 的 相应 的 RDD 的 元 素 进行 聚合 得 
到 。func 输入 参数 为 2 个 ,输出 为 1 个 ,必须 可 并 行 计算 





countByValue() 


对 源 DStream 中 每 个 RDD 的 值 进行 计数 ,并 生成 一 个 新 的 DStream 返回 





reduceByKey(func, 
[numTasks]) 


对 形 如 (K,，V) 对 的 DStream 进行 计算 ,并 返回 一 个 新 的 (K,V) 对 组 成 的 
DStream, 新 Dstream 中 的 V 为 源 DStream 中 相应 RDD 根据 键 值 聚合 
而 成 的 





join(otherStream, 


RHE MOK, V) 5 (K, W) 对 的 两 个 DStream 进行 join 操作 ,返回 一 个 新 








[numTasks]) 的 形 如 (K,，(V，W)) 对 的 DStream 
cogroup(otherStream, 对 形 如 (K,V) 与 CK, W) 对 的 两 个 DStream 进行 group 操作 ,返回 一 个 
[numTasks]) 新 的 形 如 (K,，Seq[LV], Seq[W]) 三 元 组 的 DStream 

利用 RDD 操作 将 一 个 DStream 的 每 一 个 RDD 转换 为 一 个 新 的 RDD 并 
transform(func) 


组 成 新 的 DStream 返回 





updateStateByKey(func) 





返回 一 个 新 的 状态 DStream, 新 DStream 中 每 个 键 的 状态 由 源 DStream 
中 每 个 键 的 状态 通过 func 得 到 


9.5.3 Spark Streaming 编程 


本 节 学 习 如 何 使 用 Spark Streaming 实现 流 数据 分 析 。 与 Storm 相同 ,这 里 也 采用 
在 线 单词 计数 和 在 线 SQL 注入 检测 来 作为 例子 进行 阐述 。 
由 于 Spark Streaming 没有 类 似 于 Storm 中 Spout 这 样 的 数据 发 生 器 组 件 ,因此 这 


里 采用 Socket 流 数据 作为 输入 。Netcat 是 一 个 UNIX/Linux 平台 下 的 TCP/IP 工具 ,可 
以 用 于 产生 Socket fit ,用户 可 以 到 http://netcat. sourceforge. net/ 下 载 安 装 。 这 个 工具 
也 有 Windows 版 ,用 户 可 以 到 https://www. joncraton. org/blog/46/netcat-for- 
windows/ 下 载 安装 。 安 装 完毕 后 ,运行 如 下 命令 ,就 可 打开 本 机 上 的 6666 端口 并 监听 ， 
等 待 连接 。 


nc -1 -p 6666 


建立 连接 后 ,在 Netcat 运行 终端 输入 的 字符 串 都 会 被 发 送 到 连接 方 。 在 在 线 单 词 计 
数 程序 中 ,可 以 在 Netcat 终端 输入 不 同 的 句子 作为 实时 数据 ;在 在 线 SQL 注入 检测 程序 
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中 ,每 一 行 输入 一 个 异常 或 正常 的 URL。 


1. 在 线 单 词 计数 
由 于 利用 了 Spark 核心 组 件 的 功能 ,Spark Streaming 在 线 单词 计数 的 程序 相对 较为 
简洁 ,主要 分 为 3 个 部 分 。 


。 配置 Spark 集群 并 启动 。 

。 初始 化 Socket 组 件 , 并 将 Socket 流转 换 为 DStream 。 
。 利用 DStream 转换 操作 对 句子 中 的 单词 进行 计数 。 
配置 Spark 集群 的 代码 如 下 : 


SparkConf sparkConf=new SparkConf () .setAppName ("WordCount") ; 
sparkConf.setMaster ("local [4]"); 


第 一 行 代码 配置 应 用 的 名 称 为 WordCount, 第 二 行 代码 表示 当前 应 用 以 本 地 模式 4 


线程 方式 运行 ， 
初始 化 Socket 组 件 JavaStreamingContext 代码 如 下 : 


String hostname= "localhost"; 
String port= "6666"; 
JavaStreamingContext ssc=new JavaStreamingContext (sparkConf, 
Durations.seconds (1) ); 
JavaReceiverInputDStream String> lines=ssc.socketTextStream ( 
hostname, Integer.parseInt (port), StorageLevels.MEMORY_AND_DISK_SER) ; 


这 段 代 码 初 始 化 了 一 个 JavaStreamingContext 从 localhost: 6666 以 socket 方式 获取 文 
本 流 。 切 分 间隔 为 1s, 也 就 是 说 1s 之 内 的 所 有 文本 会 被 放 到 一 个 RDD 内 。 变 量 lines 就 是 
一 个 由 这 些 RDD 序列 组 成 的 DStream。 要 增加 块 的 大 小 ,可 以 增加 Durations, seconds(n) 中 
n 的 大 小 。 这 样 可 以 提高 吞吐 率 , 但 会 降低 实时 性 。Durations 对 象 还 有 miniseconds 方 
法 ,可 以 以 毫秒 为 单位 切 分 流 数据 ,提高 实时 性 ,但 会 降低 吞吐 率 。 

单词 计数 代码 如 下 : 


JavaDStream< String> words= lines.flatMap (new FlatMapFunction< String, String> (){ 
@Override 
public Iterator< String> call (String x) { 
return Arrays.asList (SPACE.split (x) ) .iterator(); 
g 


H; 
JavaPairDStream< String, Integer>wordCounts= words .mapToPair ( 


new PairFunction< String, String, Integer> () { 
@Override 
public Tuple2< String, Integer>call(String s) { 
return new Tuple2<> (s, 1); 


} 
}) -reduceByKey (new Function2< Integer, Integer, Integer> () { 
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Boverride 
public Integer call (Integer il, Integer i2) { 
return il + i2; 
} 
ye 


在 这 一 段 代码 中 ,lines 变量 首先 被 flatMap 操作 转换 为 words ,一 个 以 String 为 基本 
类 型 的 DStream。 转 换 方式 为 以 空格 切 分 句子 。 然 后 单词 DStream 通过 mapToPair 操 
作 转 换 为 二 word, 1 二 这 样 的 二 元 组 ,最 后 以 word 为 键 进 行 reduceByKey 转换 ,得 到 每 
个 单词 的 计数 。 

当 在 Netcat 终端 输入 "this is my first spark streaming program, I love coding with 
spark streaming" JA ,程序 的 结果 如 图 9-17 所 示 。 


(first,1) 
(my,1) 
(program, ,1)| 
(spark, 2) 
(1,1) 
(this,1) 
(is,1) 
(coding,1) 
(love,1) 
(with,1) 








图 9-17 Spark Streaming 单词 计数 结果 


2. 在 线 SQL 注入 检测 


在 这 里 利用 Spark Streaming 重新 编写 9. 4. 3 节 中 的 在 线 SQL 注入 检测 程序 。 同 样 
采用 图 9-10 所 表示 的 样 例 检测 模型 。 与 上 面 的 例子 相同 ,这 里 也 采用 Netcat 作为 数据 
源 。 测 试 样 例如 下 : 


http: //www.excample.com/detail.jsp?id=1'+ (SELECT 1 FROM (SELECT SLEEP (5) )A)+ ' 
http: //www.excample.com/detail.jsp?id=1 and 1=2 UNION 123 

http: //www.excample.com/detail.jsp?id=123 

http: //www.excample.com/search.jsp?keyword= select 


前 两 个 URL 是 有 SQL 注入 嫌疑 的 URL, 后 两 个 则 是 正常 URL, 
检测 程序 的 Spark 配置 JavaStreamContext 初始 化 以 及 lines DStream 的 构建 与 上 
面 的 在 线 单词 计数 程序 无 异 , 主 要 区 别 在 于 获取 数据 之 后 的 处 理 。 检 测 代码 如 下 : 
JavaPairDStream< String, Boolean> results= lines .mapToPair( 
new PairFunction< String, String, Boolean> () { 
@Override 
public Tuple2< String, Boolean> call (String x) { 
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String str=x. substring (x.indexOf ("2")); 
String[] items=str.split ("&"); 

boolean containsSelect= false; 

boolean containsFrom= false; 

boolean containsUnion= false; 


for (String item : items) { 





String paraValue= item. substring (item. indexOf (™ 
if (paraValue.contains ("SELECT") ) 
containsSelect= true; 
if (paraValue.contains ("FROM") ) 
containsFrom= true; 
if (paraValue.contains ("UNION") ) 
containsUnion= true; 
} 
boolean isSQLInjection= false; 
if (containsSelect) { 
if (containsFrom) 
isSQLInjection= true; 
} 
else if (containsUnion) 


isSQLInjection= true; 


return new Tuple2<> (x, isSQLInjection) ; 
} 
H: 


这 里 定义 了 一 个 results DStream 存储 检测 结果 。 这 个 DStream 的 基本 单元 是 二 元 
组 ,分 别 存放 URL 以 及 判定 结果 , 若 URL 异常 , 则 判定 结果 为 true, 和 否则 为 falses 

程序 主体 部 分 定义 了 3 个 布尔 变量 ,分 别 表 示 URL 的 参数 值 部 分 是 否 包 含 
SELECT FROM 以 及 UNION。 然 后 用 计 判 定语 句 实现 图 9-10 所 描述 的 模型 ,得 到 最 
终结 果 并 存 人 二 元 组 。 程 序 的 执行 结果 如 图 9-18 所 示 。 











Ti 475767453000 ms 

(http://www.excanple.com/detail.j “+(SELECT 1 FROM (SELECT SLEEP(5))A)+',true) 
(http: //www.excample.com/detail.jsp?id=1 and 1=2 UNION 123,true) 

(http://www. excample.com/detail.jsp?id=123, false) 

(http: //www.excample.com/search. jsp?keyword=select,false) 


图 9-18 SQL 注入 检测 输出 结果 














96 小 结 
本 章 介绍 了 Hadoop 的 基础 知识 .介绍 了 HDFS, MapReduce, YARN 的 功能 以 及 基 
本 的 配置 与 操作 。 
Hadoop 大 数据 分 析 处 理 平台 的 配置 主要 分 本 地 模式 、 伪 分 布 式 模式 与 集群 模式 3 
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种 ,分 别 对 应 着 不 同 的 配置 方法 。 其 中 ,本 地 模式 常用 于 程序 开发 与 调试 , 伪 分 布 式 模式 
常用 于 在 本 地 模拟 集群 ,集群 模式 主要 用 于 生产 作业 。 

HDFS 是 Hadoop 平台 下 的 分 布 式 文件 系统 ,主要 负责 集群 中 文件 的 存 取 管 理 , 用 户 
可 以 通过 FS shell 对 HDFS 中 的 文件 进行 操作 。 

MapReduce 则 是 Hadoop 平台 的 分 布 式 计算 引擎 ,通过 构建 Mapper 与 Reducer. 编 
程 人 员 可 以 忽略 程序 底层 的 并 行 计算 与 调度 ,将 精力 集中 在 具体 的 计算 任务 上 ,降低 并 行 
程序 的 编写 难度 ,提高 并 行程 序 的 编写 效率 。Hadoop Streaming 则 进一步 地 降低 了 编程 
人 员 的 学 习 成 本 ,可 以 使 用 任意 程序 语言 或 脚本 编写 MapReduce 程序 。 

实时 流 数据 计算 是 大 数据 分 析 处 理 的 一 个 重要 应 用 场景 ,本 章 介绍 了 两 个 实时 流 数 
据 计 算 平台 ,分 别 是 Storm 以 及 Spark Streaming, ,应 用 程序 对 应 的 分 布 式 计算 结构 称 为 
Topology, 包 含 若干 个 数据 发 生 器 Spout 和 数据 运算 单元 Bolt. Spark Streaming 则 通过 
DStream 的 转换 操作 来 对 流 数据 进行 计算 。 人 它们 的 不 同 之 处 在 于 ,Storm 对 流 数据 的 最 
小 单元 进行 计算 ,Spark Streaming 则 是 先 对 流 数据 进行 切 块 处 理 , 然 后 以 块 作为 最 小 单 
元 进行 计算 。 

Hadoop 发 展 至 今 ,已 经 不 仅仅 是 一 个 分 布 式 数据 存储 与 计算 框架 。 以 Hadoop 为 中 
心 ,衍生 了 诸多 用 于 大 数据 分 析 与 处 理 的 项 目 , 比 如 : 

。 HBase。 一 个 用 于 大 数据 的 分 布 式 、 可 扩展 的 数据 库 系统 ,可 以 支持 十 亿 级 别 记 
录 与 百 万 级 别 属性 的 结构 化 大 数据 表 (Bigtable) 的 存储 与 管理 ,支持 严格 的 读 写 
一 致 性 管理 ,可 以 使 用 Java API 进行 访问 。 
Hive。 一 个 支持 随机 查询 的 数据 仓库 工具 ,可 以 将 结构 化 的 数据 文件 映射 为 数据 
库 表 并 提供 基本 的 SQL 查询 功能 。 值 得 一 提 的 是 Hive 可 以 将 用 户 提交 的 SQL 
语句 转化 为 MapReduce 程序 执行 ,在 降低 用 户 学 习 成 本 的 同时 大 大 提高 了 程序 
的 执行 效率 。 
Mahout。 一 个 基于 MapReduce 的 支持 分 布 式 计算 的 机 器 学 习 工 具 库 , 包 含 若干 常 
用 的 数据 挖掘 与 机 器 学 习 算法 的 MapReduce 实现 (目前 主要 倾向 于 Spark 实现 ) 。 

Hadoop 生态 环境 还 包含 若干 其 他 工具 ,如 Pig, Zookeeper 等 ,每 一 个 组 件 或 工具 都 
有 其 独特 的 功能 和 特点 ,读者 可 以 根据 需要 有 选择 地 学 习 。 
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大 数据 分 析 算 法 的 并 行 化 


在 计算 机 技术 发 展 的 最 初 十 几 年 里 ,从 体系 结构 到 系统 软件 以 及 应 用 软件 都 采用 串 
行 计算 作为 主要 的 设计 和 开发 模式 ,但 是 很 快 人 们 就 意识 到 ,并 行 计算 是 突破 串 行 计算 效 
率 瓶颈 提高 计算 性 能 的 有 力 和 必要 的 手段 ,相对 于 串 行 计算 ,并 行 计算 可 以 划分 为 以 流 
水 线 技术 为 代表 的 时 间 并 行 , 以 及 以 多 处 理 器 并 发 执行 为 代表 的 空间 并 行 ,两 种 并 行 方式 
都 可 以 有 效 地 提高 计算 资源 的 利用 能 力 , 从 而 提高 程序 的 执行 性 能 ,因此 并 行 计算 的 思想 
也 开始 渗透 到 计算 机 技术 发 展 的 各 个 方面 。 对 于 大 多 数 程序 员 而 言 ,早期 编写 分 布 式 并 
行 应 用 程序 具有 极 高 的 编程 门槛 ,不 但 需要 程序 员 具 有 丰富 的 硬件 ,体系 结构 、 操 作 系 统 
等 背景 知识 ,还 需要 其 编写 大 量 复杂 烦琐 的 .应 用 逻辑 之 外 的 分 布 式 并 行 控 制 逻辑 。 如 今 
在 大 数据 时 代 , 上 述 制约 因素 正在 发 生 改变 ,由 于 云 计 算 .大 数据 为 分 布 式 并 行 计 算 提 供 
了 各 种 新 的 高 可 定制 的 集群 环境 、 编 程 模型 及 框架 .为 分 布 式 并行 计 算 在 非 科 学 计算 领域 
的 普及 与 应 用 带 来 了 新 的 可 能 性 和 可 行 性 。 

本 章 介 绍 并 行 计算 算法 的 基本 知识 和 概念 (10. 1 节 ) ,以 k-means 算法 为 典型 案例 分 
析 其 在 MapReduce 计算 框架 下 的 基本 原理 ,并 基于 Mahout 和 MLlib 进行 并 行 化 实现 及 
应 用 讲解 (10. 2 节 ) ,最 后 给 出 3 个 完整 的 MapReduce 平台 下 数据 分 析 的 具体 案例 ,使 大 
家 能 够 直接 体会 在 大 数据 平台 下 进行 数据 分 析 的 整个 过 程 。 


101 并 行 算法 设计 基础 


本 节 给 出 并 行 算法 相关 的 基本 概念 及 应 用 术语 ,为 读者 学 习 并 行 计算 及 其 编程 实现 
建立 基础 。 首 先 介绍 了 并 行 算法 的 概念 ,然后 介绍 并 行 计算 的 模型 ,讲解 并 行 算 法 设计 的 
策略 和 技术 。 

10.1.1 并 行 算法 概念 


并 行 计算 或 称 平行 计算 是 相对 于 串 行 计算 来 说 的 ,是 指 同时 使 用 多 种 计算 资源 解决 
计算 问题 的 过 程 , 是 提高 计算 机 系统 计算 速度 和 处 理 能 力 的 一 种 有 效 手 段 。 它 的 基本 思 
想 是 用 多 个 处 理 器 来 协同 求解 同一 问题 ,即将 被 求解 的 问题 分 解 成 若干 个 部 分 ,各 部 分 均 
由 一 个 独立 的 处 理 机 来 并 行 计算 。 并 行 计算 系统 既 可 以 是 专门 设计 的 ` 含 有 多 个 处 理 器 
的 超级 计算 机 ,也 可 以 是 以 某 种 方式 互 连 的 若干 台 的 独立 计算 机 构成 的 集群 。 通 过 并 行 
计算 集群 完成 数据 的 处 理 , 再 将 处 理 的 结果 返回 给 用 户 。 并 行 算 法 就 是 用 多 台 处 理 机 联 
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合 求解 问题 的 方法 和 步骤 ,其 执行 过 程 是 将 给 定 的 问题 首先 分 解 成 若干 个 尽量 相互 独立 
的 子 问题 ,然后 使 用 多 台 计 算 机 同时 求解 它 , 从 而 最 终 求 得 原 问题 的 解 。 

通常 ,可 利用 并 行 计算 解决 的 问题 一 般 表现 出 以 下 特征 : 

(1) 可 将 工作 分 离 成 离散 部 分 ,以 有 助 于 同时 解决 。 

(2) 可 随时 并 及 时 地 执行 多 个 程序 指令 。 

(3) 多 计算 资源 下 解决 问题 的 耗 时 应 少 于 单个 计算 资源 下 的 耗 时 。 

定义 10.1 并 行 算 法 (parallel algorithm) 是 一 些 可 同时 执行 的 各 个 进程 的 集合 ,这 
些 进程 互相 作用 和 协调 动作 ,从 而 达到 给 定 问题 的 求解 。 

所 谓 并 行 算法 ,可 以 朴素 地 解释 为 适合 于 在 各 种 并 行 计 算 模 型 上 求解 问题 和 处 理 数 
据 的 算法 。 按 照 处 理 对 象 的 类 型 ,可 以 分 为 数值 计算 的 并 行 算 法 和 非 数 值 计算 的 并 行 算 
法 ;按照 进程 的 通信 方式 ,又 可 以 分 为 同步 并 行 算法 、 异 步 并 行 算法 以 及 分 布 并 行 算法 。 

定义 10.2 数值 计算 (numerical computation ) 是 指 基 于 代数 关系 的 运算 ,包括 矩阵 
运算 ,多 项 式 求解 , 解 线性 方程 组 等 计算 问题 ,属于 数值 分 析 的 范畴 。 

定义 10.3” 非 数值 计算 (non-numerical computation) 是 指 基 于 比较 关系 的 运算 , 包 
括 排序 、 选 择 、 搜 索 、 匹 配 以 及 图 论 等 方面 的 计算 问题 ,属于 符号 处 理 的 范畴 。 

定义 10.4 同步 算法 (synchronized algorithm) 是 指 某 些 进 程 必须 等 待 别 的 进程 的 并 
行 算法 。 

定义 10.5 异步 算法 (asynchronized algorithm) 是 指 各 个 进程 的 执行 一 般 不 必 互 相 
等 待 的 并 行 算法 ,进程 的 通信 通过 动态 读 取 ( 修 改 ) 共 享 存储 器 的 全 局 变量 实现 。 

定义 10.6 分 布 算法 (distributed algorithm) 是 指 由 通信 链 路 连接 的 多 个 场 点 或 节点 
协同 完成 问题 求解 的 并 行 算法 。 


10.1.2 并 行 计算 模型 


任何 算法 最 终 总 要 通过 并 行 编程 在 具体 的 并 行 计算 机 上 执行 实现 。 本 节 简 要 讨论 传 
统 并 行 计算 框架 下 的 算法 编程 模型 和 大 数据 时 代 的 并 行 计算 模型 。 

1. 开行 算法 编程 模型 

1) 数据 并 行 模型 

数据 并 行 模型 既 可 以 在 SIMD(Single Instruction Multiple Data, 单 指令 多 数据 流 ) 计 
算 机 上 实现 ,也 可 以 在 SPMD(Single Program Multiple Data ,单程 序 多 数据 流 ) 计 算 机 上 
实现 。 数 据 并 行 模型 的 特点 如 下 : 

。 单线 程 。 从 程序 员 的 观点 看 ,一 个 数据 并 行程 序 中 有 一 个 进程 执行 ,具有 单一 控 

制 线 ; 就 控制 流 而 论 .一 个 数据 并 行程 序 就 像 一 个 顺序 程序 一 样 。 

。 并 行 操作 于 集合 数据 结构 上 。 数 据 并 行程 序 的 一 个 单 步 (语句 ) 可 指定 同时 作用 
在 不 同 数据 组 元 素 或 其 他 聚合 数据 结构 上 的 多 个 操作 。 
松散 同步 。 在 数据 并 行程 序 的 每 条 语句 之 后 均 有 一 个 隐 含 的 同步 ,这 种 语句 级 的 
同步 是 松散 的 (相对 于 SIMD 计算 机 每 条 指令 之 后 的 紧 同步 而 言 ) 。 
。 全 局 命名 空间 。 数 据 并 行程 序 中 的 所 有 变量 均 驻 留 在 单一 地 址 空间 内 ,所 有 语句 
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可 以 访问 任何 变量 ,只 需要 满足 通常 的 变量 作用 域 规则 即 可 。 
。 隐 式 相互 作用 。 因 为 数据 并 行程 序 的 每 条 语句 之 末 存 在 着 一 个 隐 含 的 路 障 , 所 以 
不 需要 一 个 显 式 同步 ,通信 可 由 变量 指派 而 隐 含 地 完成 。 
。 隐 式 数据 分 配 。 程 序 员 不 必 明 确 地 指明 如 何 分 配 数据 ,可 将 改进 数据 局 部 性 和 减 
少 通信 的 数据 分 配方 法 揭示 给 编译 器 。 
2) 消息 传递 模型 
在 消息 传递 模型 中 , 驻 留 在 不 同 节点 上 的 进程 可 以 通过 网 络 传递 消息 (指令 数据 、 同 
步 信 号 或 中 断 信 号 等 ) 互 相通 信 。 
消息 传递 模型 的 特点 如 下 : 
。 多 线程 。 消 息 传 递 程序 由 多 个 进程 组 成 ,每 个 进程 都 有 其 自己 的 控制 线 且 可 执行 
不 同 的 代码 ;控制 并 行 和 数据 并 行 均 可 支持 。 
。 异步 并 行 性 。 消 息 传递 程序 的 各 个 线程 彼此 异步 地 执行 ,使 用 诸如 路 障 和 阻塞 通 
信和 的 方法 来 同步 各 个 进程 。 
。 分 离 地 址 空间 。 并 行程 序 的 进程 驻 留 在 不 同 地 址 空间 内 。 一 个 进程 中 的 数据 变 
量 在 其 他 进程 是 不 可 见 的 ,因此 一 个 进程 不 能 读 / 写 另 一 进程 中 的 变量 ,进程 的 相 
互 作用 通过 执行 特殊 的 消息 传递 操作 实现 。 
。 显 式 相互 作用 。 程 序 员 必 须 解 决 包括 数据 上 映射. 通信、 同步 和 聚合 等 相互 作用 问题 。 
。 显 式 分 配 。 负 载 和 数据 均 由 用 户 显 式 地 分 配给 进程 ,为 了 降低 设计 和 编码 的 复杂 
性 ,用 户 通 常 使 用 单一 代码 方法 编写 SPMD 应 用 程序 。 
3) 共享 变量 模型 
在 共享 变量 模型 中 , 驻 留 在 各 处 理 器 上 的 进程 可 以 通过 读 / 写 公共 存储 器 中 的 共享 变 
量 相互 通信 。 它 与 数据 并 行 模型 的 相似 之 处 在 于 它 有 一 个 单一 的 全 局 名 字 空 间 , 它 与 消 
息 传 递 模型 的 相似 之 处 在 于 它 是 多 线程 的 和 异步 的 。 然 而 ,数据 是 驻 留 在 单一 共享 地 址 
空间 中 的 ,因此 不 需要 显 式 分 配 数据 ,而 工作 负载 既 可 显 式 也 可 隐 式 分 配 。 通 信 通 过 共享 
的 读 / 写 变量 隐 式 完成 ,而 同步 必须 是 显 式 的 ,以 保持 进程 执行 的 正确 顺序 。 
以 上 3 种 典型 并 行 算法 编程 模型 的 对 比如 表 10-1 所 示 。 


表 10-1 典型 并 行 算法 编程 模型 对 比 





























特征 数据 并 行 共享 变量 消息 传递 
典型 代表 HPF OpenMP MPI, PVM 
可 移植 性 SMP,DSM,MPP SMP,DSM 所 有 流行 并 行 计算 机 
并 行 粒度 进程 级 细 粒 度 线程 级 细 粒 度 进程 级 大 粒度 
并 行 操作 方式 松散 同步 异步 异步 
数据 存储 模式 共享 存储 共享 存储 分 布 式 存储 
数据 分 配方 式 半 隐 式 Fast 显 式 
学 习 入 门 难度 偏 易 容易 较 难 
可 扩展 性 一 般 较 差 好 
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MPI( Message Passing Interface. 消息 传递 接口 ) 是 由 全 世界 工业 ` 科 研 和 政府 部 门 
联合 建立 的 一 个 消息 传递 编程 标准 ,其 目的 是 为 基于 消息 传递 的 并 行程 序 设计 提供 一 个 
高 效 . 可 扩展 、 统 一 的 编程 环境 。 它 是 目前 最 为 通用 的 并 行 编程 方式 ,也 是 分 布 式 并 行 系 
统 的 主要 编程 环境 。MPI 标准 中 定义 了 一 组 函数 接口 用 于 进程 间 的 消息 传递 。 这 些 函 
数 的 具体 实现 由 各 计算 机 厂商 或 科研 部 门 完 成 。 除 各 厂商 提供 的 MPI 系统 外 ,一 些 高 
校 、 科 研 部 门 也 在 开发 免费 的 通用 MPI 系统 ,其 中 比较 著名 的 有 : 

e MPICH(http://www. mes. anl. gov/mpi/mpich) 。 

e LAM MPI(http://www. lam-mpi. org/) 。 

MPI 的 发 展 历程 如 下 : 

。 1992 年 4 月 ,组 建 了 一 个 制定 消息 传递 接口 标准 的 工作 组 。 

。 1992 年 10 月 ,初稿 形成 ,主要 定义 了 点 对 点 通信 接口 。 

。 1993 年 1 月 ,第 一 届 MPI 会 议 在 Dallas 举行 。 

。 1993 年 2 月 ,公布 了 MPI-1 修 定 版 本 。 

。 1993 年 11 月 ,MPI 的 草稿 和 概述 发 表 在 Supercomputing”93 的 会 议论 文集 中 。 

。 1994 年 5 月 ,MPI 标准 正式 发 布 。 

。 1994 年 7 月 ,发 布 了 MPI 标准 的 勘误 表 。 

。 1997 年 ,MPI 论坛 发 布 了 一 个 修订 的 标准 , 叫做 MPI-2, 同时 , 原来 的 MPI 更 名 

为 MPL1。 

一 个 MPI 程序 的 各 个 进程 通过 调用 MPI 函数 进行 通信 ,协同 完成 一 项 计算 任务 。 
在 MPI 的 C 语 言 接口 中 ,所 有 函数 名 均 采 用 MPI_Xxxxx 的 形式 ,如 MPI_Send、MPI_ 
Type_commit 等 ,它们 以 MPI_ 开 始 ,以便 与 其 他 函数 名 相 区 别 , 前 级 MPI_ 之 后 的 第 一 个 
字母 大 写 , 其 余 字 母 一 律 小 写 。MPI 的 FORTRAN 接口 定义 为 一 组 SUBROUTINE, 名 
称 与 C 语言 接口 函数 相同 ,由 于 FORTRAN 语言 中 不 区 分 字母 的 大 小 写 ,因此 MPI K 
数 、 变 量 的 名 称 写成 大 写 或 小 写 均 可 。 

MPI 的 C 语言 接口 函数 通常 返回 一 个 整数 值 表示 操作 成 功 与 否 ,返回 值 为 MPI_ 
SUCCESS(0) 表 示 操 作成 功 , 否 则 表示 操作 的 错误 码 。FORTRAN 接口 比 相应 的 C 语言 
接口 函数 多 出 一 个 整 型 参数 ,用 于 返回 错误 码 。 只 有 两 个 例外 是 MPI_Wtime 和 MPI_ 
Wtick, 它 们 在 C 语言 和 FORTRAN 中 均 采 用 函数 的 形式 ,返回 值 类 型 分 别 为 double(C) 
和 DOUBLE PRECISION(FORTRAN). 

一 段 典型 的 C 语言 编写 的 MPI 程序 架构 如 下 所 示 : 


/* 文 件 名 :hello.c*/ 

# include "mpi.h" 

# include < studio.h> 

int main(int argc, char ** argv) 


{ 


MPI _Init (gargc, &argv); // 并 行 部 分 开始 
printf ("hello parallel world!\n"); 
MPI Finalize(); // 并 行 部 分 结束 


JAC 语言 编写 的 MPI 程序 中 每 个 源 文件 必须 包含 MPI 的 C 语言 头 文件 mpi. h, A 
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便 得 到 MPI 函数 的 原型 说 明 及 MPI 预定 义 的 常量 和 类 型 。 需 要 注意 的 是 源 文件 中 包含 
头 文件 mpi. h 时 不 要 含 路 径 .必要 时 可 在 编译 时 通过 -I 选 项 指定 mpi. h 所 在 的 路 径 , 以 
方便 程序 在 不 同 MPI 系统 间 的 移植 。 

MPI_Init 函数 用 于 初始 化 MPI 系统。 在 调用 其 他 MPI 函数 前 ( 除 MPI_Initialized 
外 ) 必 须 先 调 用 该 函数 。 在 许多 MPI 系统 中 , 第 一 个 进程 通过 MPI_Init 来 启动 其 他 进 
程 ,需要 将 命令 行 参数 的 地 址 (指针 ) &argc 和 &argv 传递 给 MPI_Init。MPI 程序 启动 
时 一 些 初始 参数 是 通过 命令 行 传递 给 进程 的 ,这 些 参数 被 添加 在 命令 行 参数 表 中 ,MPI_ 
Init 通过 它们 得 到 MPI 程序 运行 的 相关 信息 ,如 需要 启动 的 进程 数 、 使 用 哪些 节点 以 及 
进程 间 的 通信 端口 等 。 因 此 ,一 个 MPI 程序 如 果 需 要 处 理 命令 行 参数 ,最 好 在 调用 MPI_ 
Init 之 后 再 进行 处 理 , 这 样 可 以 避免 遇 到 MPI 系统 附加 的 额外 参数 。MPI_Finalize 函数 
用 于 退出 MPI 系统 。 调 用 MPI_Finalize 之 后 不 能 再 调用 任何 其 他 MPI 函数 。 

如 图 10-1 所 示 , 当 本 段 程序 在 一 个 具有 4 个 节点 的 集群 上 执行 时 ,该 程序 会 分 别 运 
行 在 不 同 节点 上 ,并 得 到 4 条 输出 语句 "hello parallel world!"。 








int main(int argc, char ** argv) 


{ 
MPLInit(&arge, &argv); 
printf( “hello parallel world!\n” ); 
MPI Finalize(); 


} j 




















hello parallel world! 
hello parallel world! 


hello parallel world! "ap . 
hello parallel world! S > 


图 10-1 MPI 程 序 执行 过 程 








2. 开行 计算 模型 


在 大 数据 背景 下 , 随 着 以 Hadoop/Spark 为 代表 的 大 规模 数据 分 布 式 并 行 计算 模型 
的 出 现 并 获得 巨大 成 功 ,工业 界 和 学 术 界 对 于 并 行 计算 模型 的 关注 越 来 越 高 。 

1) 面向 批 处 理 的 并 行 计算 模型 

具有 代表 性 的 面向 批 处 理 式 分 析 的 分 布 式 并 行 计 算 模型 有 微软 公司 的 Dryad、 谷 歌 
公司 的 MapReduce 等 。MapReduce 已 经 成 为 学 术 界 和 工业 界 事实 上 的 海量 数据 并 行 批 
量 处 理 的 标准 。 在 第 8 章 已 经 系统 介绍 了 MapReduce 计算 框架 , 相 比 于 传统 的 并 行 计算 
技术 ,MapReduce 具备 了 线性 可 扩展 性 、 高 可 用 性 、 易 用 性 、 容 错 性 、 负 和 载 平衡 以 及 和 鲁 棒 性 
等 大 数据 处 理 系统 所 必 备 的 特性 。 用 户 在 使 用 MapReduce 并 行 编程 模型 时 只 需要 关注 
与 具体 应 用 相关 的 高 层 处 理 逻 辑 ,而 将 其 余 低 层 复杂 的 并 行事 务 ( 如 输入 分 布 . 任 务 划 分 
与 调度 .任务 间 通 信 ,容错 处 理 以 及 负载 平衡 等 ) 交 与 执行 引擎 完成 。 同 时 ,配合 用 户 自 定 
义 的 输入 输出 流 处 理 、 任 务 调度 .中 间 数 据 分 区 和 排序 等 可 编程 接口 ,该 模型 在 可 伸缩 性 
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和 可 编程 性 上 达到 了 较 好 的 平衡 点 。 

2) 面向 流 处 理 的 并 行 计算 模型 

在 大 数据 应 用 中 ,实时 数据 流 应 用 是 一 类 新 型 的 用 瞬 态 数据 建 模 的 数据 密集 型 应 用 。 
其 典型 特征 是 数据 价值 具有 时 效 性 , 即 数 据 蕴含 的 价值 会 随 着 时 间 的 流逝 而 降低 。 因 此 ， 
低 延 迟 是 对 数据 流 处 理 系统 的 一 个 基本 要 求 。 同 时 ,数据 以 大 量 .连续 .快速 .时 变 的 方式 
到 达 系 统 , 需 要 处 理 的 数据 不 可 能 全 部 存储 在 可 随机 访问 的 磁盘 或 内 存 中 。 近 年 来 , 随 着 
社交 网 络 的 急速 发 展 , 大 规模 高 扩展 的 流 式 计算 模型 成 为 业界 研究 的 热点 ,具有 代表 性 的 
有 Yahoo! 的 S4、Facebook 的 Puma, 谷歌 的 MillWheel Twitter 的 Storm 等 ,这 些 系统 与 
企业 自身 的 具体 需求 紧密 结合 ,致力 于 解决 实际 的 应 用 问题 。 相 比 于 批 处 理 计算 模型 ,上 
述 流 式 并 行 计算 模型 从 流 数据 本 身 的 特征 出 发 ,从 底层 架构 上 就 与 流 数据 处 理 高 度 耦 合 ， 
虽然 适用 范围 比较 受 局 限 , 但 是 可 以 有 效 地 将 系统 响应 时 间 控 制 在 毫秒 级 。 流 式 并 行 计 
算 模型 的 不 足 是 在 甜 吐 能 力 、 负 载 平衡 等 方面 尚 有 待 进一步 提高 。 

3) 面向 大 图 数据 的 并 行 计算 模型 

在 大 数据 时 代 背 景 下 , 数 十 亿 顶 点 级 别 大 规模 图 的 不 断 涌现 以 及 云 计 算 基 础 设施 的 
持续 完善 ,推动 着 图 数据 处 理 的 研究 重心 由 单机 图 算法 的 高 度 优化 逐渐 转向 为 分 布 式 并 
行 大 图 处 理 的 优化 。 目 前 ,大 图 数据 处 理 存 在 两 种 典型 的 模式 : 一 是 采用 通用 的 海量 数 
据 分 布 式 并 行 计算 框架 MapReduce 进行 处 理 , 二 是 采用 完全 面向 图 结构 设计 的 专用 大 图 
计算 框架 。 在 分 布 内 存 架构 下 ,目前 具有 代表 性 的 大 图 并 行 计算 模型 有 Pregel, HAMA, 
Giraph、Distributed GraphLab 以 及 Trinity 等 。 

4) 基于 内 存 的 并 行 计算 模型 

受 限于 廉价 PC 构建 的 运行 环境 以 及 面向 领域 高 度 优化 的 系统 架构 ,上 述 并 行 计算 
模型 难以 有 效应 对 新 型 实时 型 应 用 对 于 实时 .即席 交互 式 分 析 的 复杂 业务 诉求 。 在 基于 
内 存 的 面向 大 数据 的 分 布 式 并 行 计算 模型 研究 工作 开展 之 前 ,工业 界 和 学 术 界 在 基于 内 
存 的 数据 管理 技术 ,特别 是 主 存 数据 库 领 域 已 经 累积 了 大 量 的 研究 成 果 和 经 验 。 近 年 来 ， 
在 新 型 实时 应 用 的 驱动 下 ,以 最 短 响应 时 间 为 设计 目标 的 面向 内 存 设计 的 编程 模型 及 其 
系统 也 在 不 断 涌现 ,为 即席 实时 可 交互 的 分 析 提 供 了 多 样 化 的 选择 。 其 中 具有 代表 性 的 
是 UCBerkeley 的 基于 内 存 的 分 布 式 并 行 处 理 框架 Spark ,其 利用 内 存 计 算 避 免 了 高 延迟 
的 磁盘 物化 ,有 效 保证 了 处 理 的 实时 性 并 提供 了 交互 式 的 迭代 分 析 能 力 。 读 者 在 第 8 章 
系统 学 习 了 Spark 的 相关 理论 基础 和 编程 方法 ,Spark 提供 的 最 主要 的 抽象 即 弹性 分 布 
式 数 据 集 (RDD) ,为 了 提供 操作 的 便捷 性 ,Spark 框架 还 提供 了 和 Hive 类 似 的 类 SQL 命 
令 接口 Shark。 同 时 ,基于 Spark 的 内 存 计 算 分 析 生态 系统 已 经 越 来 越 丰富 ,如 处 理 流 数 
据 的 Spark Streaming, 用 于 大 图 计算 的 GraphX 等 。 


10.1.3 并 行 算法 设计 的 策略 和 技术 

并 行 算法 的 设计 在 处 理 数 值 型 和 非 数值 型 数据 类 型 时 有 一 定 的 相似 性 ,一 般 有 3 种 
设计 策略 : 

(1) 串 行 算法 的 直接 并 行 化 。 就 是 充分 发 掘 和 利用 现 有 串 行 算法 中 的 并 行 性 ,直接 
将 串 行 算法 改造 为 并 行 算法 ,这 是 数值 并 行 算法 中 最 常用 的 设计 策略 。 
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行 算法 ,设计 一 个 全 新 的 并 行 算法 。 

(3) 借用 已 有 的 算法 求解 新 问题 。 借 鉴别 处 的 已 有 算法 ,解决 新 发 现 的 问题 ,可 能 会 
取得 令 人 满意 的 结果 。 

采用 PCAM(Partitioning-Communication-Agglomeration-Mapping) 设 计 方 法 学 设计 
并 行 算法 分 为 4 个 阶段 : 划分 .通信 、 组 合 ,映射 。 它 反映 了 并 行 算法 设计 的 自然 过 程 , 首 
先 尽量 开拓 算法 的 并 发 性 ,满足 算法 的 可 扩展 性 ,然后 着 重 优化 算法 的 通信 成 本 和 全 局 执 
行 时 间 , 同 时 通过 必要 的 整个 过 程 的 反复 回溯 ,以 期 最 终 达 到 一 个 满意 的 设计 ,具体 过 程 
如 图 10-2 所 示 。 


问题 























T 
3 


图 10-2 PCAM 求解 问题 过 程 




















(1) 划分 (Partitioning)。 分 解 成 小 的 任务 ,开拓 并 发 性 。 主 要 使 用 域 分 解 和 功能 分 
解 方法 将 计算 问题 分 解 成 若干 个 可 部 分 执行 或 完全 执行 的 子 任务 。 
。 域 分 解 。 又 称 数据 划分 ,是 将 问题 相关 的 大 块 数据 尽 可 能 分 割 成 大 小 均匀 的 小 数 
据 片 ,并 把 计算 关联 到 它 所 操作 的 数据 上 。 典 型 代表 包括 分 治 法 、 偏 微分 方程 数 
值 求解 的 区 域 分 解法 ,方程 组 迭代 求解 中 的 红 / 黑 着 色 法 等 。 
。 功能 分 解 。 又 称 计算 划分 ,是 以 被 执行 的 计算 作为 划分 的 对 象 ,而 不 是 计算 所 需 
的 数据 。 典 型 代表 包括 流水 (脉动 ) 方 法 等 。 
(2) 通信 (Communication) 。 确 定 诸 任务 间 的 数据 交换 ,监测 划分 的 合理 性 。 计 算 问 
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题 划 分 得 到 诸 任务 后 常常 存在 彼此 的 数据 依赖 ,而 不 能 完全 独立 地 执行 ,因而 子 任务 间 数 
据 依 赖 关 系 的 差别 便 产 生 了 不 同 的 通信 模式 ,包括 全 部 /全 局 通信 、 结 构 化 / 非 结构 化 通 
信 , 静 态 /动态 通信 .同步 /异步 通信 等 。 
(3) 组 合 (Agglomeration) 。 依 据 任务 的 局 部 性 ,组 合成 更 大 的 任务 。 其 主要 目的 是 
通过 合并 小 尺寸 的 任务 来 减少 任务 数 ,以 提高 效率 和 减少 通信 成 本 。 
。 表 面 -容积 效应 。 即 每 个 子 任务 有 和 较 少 的 通信 对 象 时 , 则 增 大 划分 粒度 能 减少 通 
信 次 数 , 并 同时 减少 总 通信 量 。 
。 重复 计算 。 即 采用 不 必要 的 多 余 计算 来 获得 相关 数据 以 减少 通信 要 求 或 执行 时 间 。 
(4) 映射 (Mapping)。 将 每 个 任务 分 配 到 处 理 器 上 ,提高 算法 的 性 能 ,减少 算法 的 总 
执行 时 间 。 主 要 策略 有 两 种 : 一 是 将 能 并 发 执行 的 任务 映射 到 不 同 处 理 器 上 以 增强 并 行 
度 , 二 是 将 需要 频繁 通信 的 任务 映射 到 同一 处 理 器 以 提高 局 部 性 。 
。 负载 平衡 。 可 采用 递归 对 剖 法 、 局 部 算法 ,概率 方法 ,循环 映射 等 。 其 中 递归 对 剖 
法 又 能 分 化 出 递归 坐标 对 剖 , 非 平衡 递归 对 剖 .递归 图 前 分 等 方法 。 循 环 映射 能 
衍生 出 反射 映射 、 块 循环 映射 等 方法 。 
。 任务 调度 。 一 类 是 经 理 / 雇 员 模式 ,在 大 规模 问题 中 常 采用 层次 经 理 /雇员 模式 以 
避免 经 理 成 为 瓶颈 ; 另 一 类 是 非 集中 模式 ,并 且 任 务 调度 算法 需要 执行 结束 检测 
来 检测 操作 是 否 结束 。 


102 典型 数据 挖掘 算法 并 行 化 案例 


本 节 给 出 并 行 算 法 相关 的 基本 概念 及 其 应 用 术语 ,为 读者 学 习 并 行 计 算 及 其 编程 实 
现 建立 基础 。 首 先 介绍 并 行 算 法 的 概念 ,然后 介绍 并 行 计 算 的 模型 ,最 后 介绍 并 行 算法 设 
计 的 策略 和 技术 。 

聚 类 分 析 作 为 一 种 无 监督 学 习 ,一般 用 来 对 数据 对 象 按照 其 特征 属性 进行 分 组 ,经 常 
被 应 用 在 欺诈 检测 、 图 像 分 析 等 领域 。 其 中 ,k-means 是 最 有 名 并 且 最 经 常 使 用 的 聚 类 算 
法 了 ,其 原理 比较 容易 理解 ,并 且 聚 类 效果 良好 ,得 到 了 广泛 的 应 用 。 本 节 以 k-means 算 
法 为 例 , 讲 解 MapReduce 环境 下 并 行 算法 设计 的 方法 和 过 程 。 


10.2.1 MR k-means 算法 分 析 


首先 ,回顾 一 下 k-means 算法 的 基本 步骤 ， 
CL) 从 数据 集 z 中 随机 选择 一 个 点 作为 第 一 个 初始 点 。 
(2) 计算 数据 集中 所 有 点 与 当前 中 心 点 的 距离 D(x)。 


~)2 
(3) 选择 下 一 个 中 心 点 ,使 得 PC) = FT . 
T 





(4) 重复 (1) (2) 步 过 程 ,直到 个 初始 点 选择 完成 。 
假设 样本 数据 及 个 ,预期 生成 k 个 cluster, M) k-means 算法 上 次 选 代 过 程 的 时 间 复 
杂 度 为 O(nkt) ,需要 计算 ntk 次 相似 度 . 那 么 在 MapReduce 计算 框架 下 ,如 果 能 够 将 各 个 
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点 到 中 心 点 的 相似 度 计算 工作 分 挫 到 不 同 的 计算 机 上 并 行 地 计算 ,是 不 是 能 够 减少 计算 
时 间 呢 ? 通过 思考 可 以 发 现 ,在 及 means 中 处 理 每 一 个 数据 点 时 ,每 个 聚焦 的 中 心 点 信息 
是 始终 需要 用 到 的 ,而 其 他 点 的 信息 只 需要 在 比 对 时 读 人 当前 点 的 信息 即 可 。 所 以 ,如 果 
涉及 全 局 信息 ,只 需要 知道 关于 各 个 聚焦 的 信息 即 可 。 因 此 ,可 以 尝试 从 以 下 出 发 点 进行 
MapReduce k-means 算法 改造 : 

。 将 所 有 的 数据 分 布 到 不 同 的 节点 上 ,每 个 节点 只 对 自己 的 数据 进行 计算 。 

。 每 个 节点 能 够 读 取 上 一 次 迭代 生成 的 聚 簇 中 心 ,并 判断 自己 的 各 个 数据 点 应 该 属 

于 哪 一 个 聚 簇 。 

。 每 个 节点 在 每 次 迭代 中 根据 自己 的 数据 点 计算 出 相关 结果 。 

。 综合 每 个 节点 计算 出 的 相关 数据 ,计算 出 最 终 的 实际 聚 类 结果 。 

总 结 一 下 ,需要 关注 的 参数 就 是 迭代 次 数 k、 聚 类 ID、 聚 类 中 心 和 属于 该 聚 类 中 心 
的 数据 点 总 数 。 接 下 来 ,具体 分 析 算 法 的 执行 过 程 , 并 查看 这 些 参数 的 变化 情况 。 假 定 
有 如 表 10-2 所 示 的 数据 集 , 可 看 做 二 维 坐 标 系 中 的 4 个 点 {A(1,1), B(2,3), C(3,4)， 
D(5,5)} ,迭代 次 数 人 一 2, 聚 类 个 数 "一 2, 其 执行 过 程 如 下 。 


表 10-2 待 聚 类 数据 集 








对 象 属性 1CX) 属性 2(Y) WR 属性 CX) 属性 2(Y) 
A 1 1 ë 3 4 
B 2 3 D 5 5 




















假定 将 所 有 数据 分 布 到 两 个 节点 node-0 和 node-1 上 , 即 node-0: A(1,1) 和 CC3,4)， 
node-1 : B(2.3)#l D(5.5) ,随机 选取 A(1,1) 作 为 cluster-0 的 中 心 ,C(3,4) 作 为 cluster- 
1 的 中 心 。 和 迭代 开始 前 的 聚 簇 情 况 如 表 10-3 所 示 。 

















表 10-3 初始 划分 
KIE ID FRE Pay 被 分 配 的 点 数 
cluster-0 A(1,1) 0 
cluster-1 C(3,4) 0 
Map 阶段 : 计算 各 个 数据 点 到 各 个 cluster 中 心 的 距离 。 通 过 计算 可 知 ,点 A 和 C 


到 自身 的 距离 分 别 是 0, 是 最 近 的 ,因此 应 将 其 分 配 到 对 应 的 聚 徐 中 。 分 别 分 析 点 B.D 
与 A、C 的 距离 ,发 现 B 和 DD 均 距离 点 C 更 近 一 些 , 那 么 应 该 把 B.D 暂时 归 入 C 所 在 的 
聚 得 ,并 标记 为 cluster-1。 


表 10-4 Ma 阶段 初次 距离 计算 














到 各 个 聚 簇 的 距离 比较 
数据 点 Sy Hic BY FR AE 
cluster-0 cluster-1 
A(G,1) 0, 近 Cluster-0 
CG .4) 0. 近 Cluster-1 














ARBRBAM A 














BR 
BAT RR be 
数据 点 分 配 的 聚 簇 
cluster-0 cluster-1 
B(2,2) V5 \2, 近 Cluster-1 
D(5,5) 4/2 \5, iE Cluster-1 














这 时 在 每 个 节点 上 的 数据 输出 可 按照 下 表 进 行 标记 , 接 下 来 在 Combine 阶段 , Map 
的 输出 也 就 是 Combiner 的 输入 。 








Node-0 输出 : Node-1 输出 : 
<cluster-0, A(1,1)> <cluster-1, B(2,3)> 
<cluster-1, C(3,4)> <cluster-1, D(5,5)> 








经 过 计算 ,Combiner 的 输出 采用 如 下 的 键 值 对 格式 : 
。 键 一 聚 艇 ID. 
。 值 一 [包含 的 点 数 ,均值 ]。 





Node-0 输出 : Node-1 输出 : 
<cluster-0, [1,(1,1)]> <cluster-1, [2,(3.5,4)]> 
<cluster-1, [1,(3,4)]> 











接 下 来 进入 Reduce 阶段 ,由 于 Map [ir Be fii tt 9 HEER ID. ,所 以 每 个 聚焦 的 全 部 
数据 将 被 发 送 给 同一 个 Reducer, 包 括 聚 簇 ID、 该 聚 簇 的 数据 点 的 均值 以 及 对 应 于 该 均值 
的 数据 点 的 个 数 。 两 个 Reducer 分 别 收 到 





Reducer-0: Reducer-1: 
<cluster-0, [1,€1,1)]> <cluster-1,[1,(3,4)] 
<cluster-1,[2,(3.5,4)] 











经 计算 可 知 ,得 到 两 个 聚 簇 cluster-0 和 cluster-1, 当 满足 终止 条 件 时 , 即 可 停止 迭 
代 , 输 出 个 聚 类 。 在 MR k-means 中 ,终止 条 件 的 设置 与 原 k-means 可 保持 一 致 。 例 
如 , 设 定 和 迭代 次 数 , 均 方差 的 变化 ( 非 充分 条 件 ) .指定 的 点 固定 地 属于 某 个 聚 类 等 。 


10.2.2 Mahout 聚 类 算法 案例 


Apache Mahout 是 Apache Software Foundation (ASF) 开 发 的 一 个 全 新 的 开源 项 
目 , 其 主要 目标 是 建立 一 个 可 靠 .文档 翔实 .可 伸缩 的 项 目 ,在 其 中 实现 一 些 常 见 的 机 器 学 
习 算 法 , 供 开发 人 员 在 Apache 许可 下 免费 使 用 。Mahout 最 大 的 优点 就 是 基于 Hadoop 
实现 ,把 以 前 运行 于 单机 上 的 经 典 算法 转换 到 MapReduce 计算 框架 下 ,大 大 提升 了 算法 
可 处 理 的 数据 量 和 处 理性 能 。 在 Mahout 上 实现 的 机 器 学 习 算法 如 表 10-5 所 示 。 
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R 10-5 在 Mahout 上 实现 的 机 器 学 习 算法 




























































































算法 分 类 算法 名 称 中 文 名 称 
Logistic Regression 逻辑 回归 
Bayesian 贝 叶 斯 
SVM 支持 向 量 机 
分 类 算法 Perceptron 感知 器 
Neural Network 神经 网 络 
Random Forests 随机 森林 
Restricted Boltzmann Machines 有 限 波 尔 效 曼 机 
Canopy Clustering Canopy 聚 类 
k-means Clustering k 均值 聚 类 
Fuzzy k-means 模糊 人 均值 
Expectation Maximization EM 聚 类 (期 望 最 大 化 聚 类 ) 
聚 类 算法 Mean Shift Clustering 均值 漂移 聚 类 
Hierarchical Clustering 层次 聚 类 
Dirichlet Process Clustering 狄 里 克 雷 过 程 聚 类 
Latent Dirichlet Allocation LDA 聚 类 
Spectral Clustering HRA 
关联 规则 挖掘 Parallel FP Growth Algorithm 并 行 FP Growth 算法 
回归 Locally Weighted Linear Regression | 局 部 加 权 线性 回归 
Singular Value Decomposition 奇异 值 分 解 
Principal Components Analysis 主 成 分 分 析 
降 维 / 维 约 简 
Independent Component Analysis 独立 成 分 分 析 
Gaussian Discriminative Analysis 高 斯 判别 分 析 
进化 算法 并 行 化 的 Watchmaker 框架 
Non-Distributed Recommenders Taste(UserCF, ItemCF, SlopeOne) 
Been Distributed Recommenders TtemCF 
Row Similarity Job 计算 列 间 相 似 度 
向 量 相似 度 计算 
Vector Distance Job 计算 向 量 间距 离 
非 MapReduce 算 法 | Hidden Markov Models 隐 马 尔 可 夫 模 型 
集合 方法 扩展 Collections 扩展 了 Java 的 Collections 类 








Mahout 的 安装 


和 使 用 比较 简单 ,直接 解压 使 用 或 在 相应 的 函数 调用 时 引入 即 可 。 





安装 过 程 简单 描述 如 


nr. 
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使 用 下 面 的 命令 解压 Mahout 安装 包 : 


cd /Mahout 压缩 包 所 在 目录 / 

mv mahout- distribution- 0.9.tar.gz ~ / 

cd 

tar - zxvf ~ /mahout- distribution- 0.9.tar.gz 
cd mahout- distribution- 0.9 


执行 ls -1 命令 ,会 看 到 如 图 10-3 所 示 的 内 容 , 其 中 展示 了 mahout-distribution-0. 9 
目录 下 包含 的 文件 。 


zhangxu@master ~]$ cd mahout-distribution-0.9 
[zhangxu@master mahout-distribution-0.9]$ ls -l 
otal 39880 

rwxrwxr-x. 
rwxr-xr-x. 





zhangxu zhangxu 4096 Aug 2 20:26 bin 

zhangxu zhangxu 4096 Jan 28 2014 conf 

zhangxu zhangxu 4096 Aug 2 20:26 docs 

zhangxu zhangxu 4096 Aug 2 20:26 examples 

zhangxu zhangxu 4096 Aug 2 20:26 lib 

zhangxu zhangxu 39588 Jan 28 2014 LICENSE.txt 

zhangxu zhangxu 1469563 Jan 28 2014 mahout-core-6.9.jar 
zhangxu zhangxu 12831506 Jan 28 2014 mahout-core-@.9-job.jar 
zhangxu zhangxu 235053 Jan 28 2014 mahout-examples-6.9.jar 
zhangxu zhangxu 24178445 Jan 28 2014 mahout-examples-0.9-job.jar 
zhangxu zhangxu 432668 Jan 28 2014 mahout-integration-0.9.jar 
zhangxu zhangxu 1612814 Jan 28 2014 mahout-math-0.9.jar 
zhangxu zhangxu 1888 Jan 28 2014 NOTICE.txt 

zhangxu zhangxu 1212 Jan 28 2014 README.txt 
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rw-r--r--. 
[zhangxu@master mahout-distribution-0.9]$ i 








10-3 Mahout 主 目录 结构 





解压 安装 后 ,可 启动 并 验证 Mahout, 执 行 的 操作 命令 如 下 : 


cd /Mahout 解压 安装 目录 / 
bin/mahout 


执行 命令 后 看 到 类 似 图 10-4 的 输出 , 则 表示 安装 成 功 。 

从 Mahout 源码 可 以 看 到 ,在 进行 k-means 聚 类 时 ,执行 以 下 4 个 步骤 : 

(1) 数据 预 处 理 ,整理 规范 化 数据 。 

(2) 从 上 述 数 据 中 随机 选择 若干 个 数据 当 作 聚 簇 的 中 心 。 

G) 迭代 计算 ,调整 形 心 。 

(4) 把 数据 分 给 各 个 聚 簇 。 

其 中 ,前 两 步 就 是 标准 k-means 聚 类 算法 的 准备 工作 ,后 面 的 步骤 和 10. 2. 1 节 分 析 
的 MR k-means 案例 思路 一 致 .其 主要 流程 可 以 从 org. apache. mahout. clustering. 
syntheticcontrol. kmeans. Job run() 方 法 里 看 出 。 


Public static void run (Configuration conf, Path input, Path output, DistanceMeasure 
measure, int k,double convergenceDelta, int maxIterations) throws Exception { 

//synthetic_control.data 存储 的 文本 格式 ,以 KV 形式 存 人 output/data HR. 
Path directoryContainingConvertedInput= new Path (output DIRECTORY _ CONTAINING _ 
CONVERTED INPUT) ; 
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zhangxu@master ~]$ cd /home/zhangxu/mahout-distribution-0.9 

[zhangxu@master mahout-distribution-0.9]$ bin/mahout 

unning on hadoop, using /home/zhangxu/hadoop-2.5.2/bin/hadoop and HADOOP_CONF_DIR= 
(OUT-JOB: /home/zhangxu/mahout -distribution-0.9/mahout-examples-@.9-job.jar 

LF4J: Class path contains multiple SLF4J bindings. 

LF4J: Found binding in [jar:file:/home/zhangxu/hadoop-2.5.2/share/hadoop/common/lib/slf4 

j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

LF4J: Found binding in [jar:file:/home/zhangxu/hbase-0.98.9-hadoop2/1ib/s1f4j-log4j12-1. 

.4. jar! /org/slf4j/impl/StaticLoggerBinder.class] 

LF4J: See http://www.slf4j.org/codes.html#multiple bindings for an explanation. 

LF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

n example program must be given as the first argument. 

falid program names are: 

arff.vector: : Generate Vectors from an ARFF file or directory 

baumwelch: : Baum-Welch algorithm for unsupervised HMM training 

canopy: : Canopy clustering 

cat: : Print a file or resource as the logistic regression models would see it 
cleansvd: : Cleanup and verification of SVD output 

clusterdump: : Dump cluster output to text 

clusterpp: : Groups Clustering Output In Clusters 

cmdump: : Dump confusion matrix in HTML or text formats 

concatmatrices: : Concatenates 2 matrices of same cardinality into a single matrix 
cvb: : LDA via Collapsed Variation Bayes (@th deriv. approx) 

cvb@_local: : LDA via Collapsed Variation Bayes, in memory locally. 
evaluateFactorization: : compute RMSE and MAE of a rating matrix factorization against 

probes 

fkmeans: : Fuzzy K-means clustering 

hmmpredict: : Generate random sequence of observations by given HMM 

itemsimilarity: : Compute the item-item-similarities for item-based collaborative filte 

ring 

kmeans: : K-means clustering 

lucene.vector: : Generate Vectors from a Lucene index 

lucene2seq: : Generate Text SequenceFiles from a Lucene index 

matrixdump: : Dump matrix in CSV format 


图 10-4 Mahout 测试 安装 成 功 的 运行 界面 




















log.info ("Preparing Input"); 

InputDriver.runJob (input, directoryContainingConvertedInput, "org.apache. 

mahout .math.RandomAccessSparseVector" 
// 随 机 产生 几 个 聚 簇 , 存 人 output /clusters- 0/part- randomSeed X fF 


log.info ("Running random seed to get initial clusters" 








Path clusters=new Path (output,Cluster.INITIAL CLUSTERS DIR); 
clusters=RandomSeedGenerator.buildRandom(conf, directoryContaining- 
ConvertedInput, clusters, k, measure); 

/ ETT ERIE ARIEL, H 5 AE He FE BE Py 
log.info ("Running KMeans") ; 
KMeansDriver.run(conf, directoryContainingConvertedInput, clusters, output, 
measure, convergenceDelta,maxIterations,true, 0.0, false); 
// 根 据 上 面 选 出 的 中 心 , 把 output /data FAA ic RAA BC PE BE ,最 后 输出 运算 结果 
ClusterDumper clusterDumper= new ClusterDumper (new Path (output, "clusters- * — final"),new 
Path (output, "clusteredPoints") ) ; 
clusterDumper.printClusters (null); 
i] 


在 上 面 的 代码 中 : 
。 参数 input 指定 待 聚 类 的 所 有 数据 点 ,clusters 指定 初始 聚 类 中 
$: 参数 Output 指定 聚 类 结果 的 输出 路 径 。 





367 


ROPPE RDA 


clusters-N 目录 保存 根据 原 数 据点 和 上 一 次 迭代 (或 初始 聚 类 ) 的 聚 类 中 心计 算 
得 到 的 本 次 迭代 的 聚 类 中 心 ,该 过 程 由 org. apache. mahout. clustering. kmeans 
下 的 KMeansMapper\KMeansCombiner\KMeansReducer\KMeansDriver 实现 。 
KMeansMapper 在 初始 化 Mapper 时 读 和 人 上 一 次 选 代 产生 或 初始 的 全 部 聚 类 中 
心 , 然 后 通过 Map 方法 对 输入 的 每 个 点 计算 距离 其 最 近 的 类 ,并 加 入 其 中 。 输 出 
key 为 该 点 所 属 聚 类 ID. value 为 KMeansInfo 实例 ,包含 点 的 个 数 和 各 分 量 的 累 
加 和 。 
KMeansCombiner 在 本 地 累加 KMeansMapper 输出 的 同一 聚 类 ID 下 的 点 个 数 和 
各 分 量 的 和 。 
KMeansReducer 累加 同一 聚 类 ID 下 的 点 个 数 和 各 分 量 的 和 , 求 本 次 迭代 的 聚 类 
中 心 ,并 判断 该 聚 类 是 否 已 收敛, 最 后 输出 各 聚 类 中 心 和 其 是 否 收敛 标记 。 
KMeansDriver 在 每 轮 和 迭代 后 读 取 其 clusters-N 目录 下 的 所 有 聚 类 , 若 所 有 聚 类 
已 收敛 , 则 整个 k-means RAG FRIST 

回想 并 对 比 一 下 在 10. 2. 1 节 讲 解 的 MR k-means 实现 原理 ,可 以 发 现 Mahout 很 好 
地 实现 了 这 样 一 个 算法 ,不 需要 再 自行 编程 实现 ,只 需要 按照 参数 要 求 调用 即 可 。 当 然 
如 果 需 要 对 算法 进行 优化 ,还 是 需要 考虑 自行 实现 该 算法 。 

接 下 来 分 析 如 何 调用 Mahout 提供 的 k-means 算法 实现 对 控制 时 序数 据 的 聚 类 。 首 
先 ,下 载 控 制 时 序数 据 (http://archive. ics. uci. edu/ml/databases/synthetic_ control/ 
synthetic_control. data) ,如 图 10-5 所 示 , 每 幅 小 图 代表 一 类 数据 : 趋势 向 下 (A)、 周 期 
(B) IE% (C), m EWE D ,趋势 向 上 (E) 向 下 偏 移 (F)。 通 过 调用 Mahout 的 k-means 
聚 类 方法 分 析 该 数据 的 过 程 如 下 : 





图 10-5 “控制 时 序 聚 类 数据 
(1) 上 传 实验 数据 到 HDFS 文件 系统 : 


hadoop fs -put synthetic control.data /user/root/testdata 


Bloe KABA iA E Ga ae 


(2) 运行 聚 类 程序 : 


hadoop jar /home/zhangxu/mahout - distribution- 0. 9/mahout - examples- 0. 9- job. jar org. 


apache .mahout .clustering.syntheticcontrol.kmeans .Job 


(3) 查看 聚 类 结果 ,如 图 10-6 所 示 。 





图 10-6 时序 控制 数据 k-means 聚 类 结果 目录 


10.2.3 Spark MLIib 聚 类 算法 案例 


[前面 的 学 习 , 可 以 了 解 到 k-means 算法 和 诸多 机 器 学 习 算法 一 样 ,也 是 一 个 迭代 
式 的 算法 ,那么 能 否 在 Spark 平台 下 实现 呢 ? 值得 高 兴 的 是 ,Spark 平台 下 提供 了 一 个 很 
好 的 机 器 学 习 库 MLlib ,类 似 于 MapReduce 下 的 Mahout。Spark MLlib k-means 算 
法 在 初始 聚 类 点 的 选择 上 遵循 一 个 基本 原则 : 初始 聚 类 中 心 点 相互 之 间 的 距离 应 该 尽 可 
能 远 。MLlib 提供 的 k-means 聚 类 包含 的 关键 参数 如 图 10-7 所 示 。 









class KMeans private ( 
private var k: Int, 
private var maxIterations: Int, 
private var runs: Int, 
private var initializationMode: 
private var initializationSteps: Int, 
private var epsilon: Double, 
private var seed: Long) extends Serializable with Logging 








图 10-7 MLIlib 机 器 学 习 库 的 k-means RH BR 


其 中 : 

。 k 为 期 望 的 聚 类 个 数 。 

。 maxInterations 为 单 次 运行 最 大 的 迭代 次 数 

。 runs 为 算法 运行 的 次 数 。k-means 算法 不 保证 能 返回 全 局 最 优 的 聚 类 结果 ,所 以 
在 目标 数据 集 上 多 次 执行 k-means 算法 ,有 助 于 返回 最 佳 聚 类 结果 。 

。 initializationMode 为 初始 聚 类 中 心 点 的 选择 方式 。 

。 initializationSteps 为 k-means 方法 中 的 步 数 。 

。 epsilon 表示 k-means $F IETE ACU SAY BEL 

。 seed 表示 集群 初始 化 时 的 随机 种 子 。 

通常 ,在 应 用 时 都 会 先 调用 K Means, train 方法 对 数据 集 进 行 聚 类 训练 ,这 个 方法 会 
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返回 KMeansModel 类 实例 ,也 可 以 使 用 KMeansModel. predict 方法 对 新 的 数据 点 进行 
所 属 聚 类 的 预测 。 使 用 方法 如 下 面 的 代码 所 示 ,该 示例 程序 接受 5 个 输入 参数 ,分 别 是 训 
练 数据 集 文件 路 径 测试 数据 集 文件 路 径 、 聚 类 个 数 、. 和 迭代 次 数 .运行 次 数 。 


/* 
* import 部 分 省 略 
*/ 
object KMeansClustering { 
def main (args: Array[String]) { 
if (args.length< 5) { 
//5 个 输入 参数 : 训练 数据 集 文件 路 径 、 测 试 数据 集 文件 路 径 、 聚 类 个 数 、. 迁 代 次 数 .运行 次 数 
Println ("Usage: KMeansClustering trainingDataFilePath testDataFilePath numClusters 
numIterations runTimes") 
sys.exit (1) 
} 
// 初 始 化 sparkconf 配置 
val conf= new SparkConf () .setAppName ("Spark MLlib K- Means Clustering") 
val sc=new SparkContext (conf) 
//5 个 参数 分 别 解析 读 人 
val rawTrainingData= sc.textFile (args (0) ) 
val parsedTrainingData= rawTrainingData. filter (!isColumnNameLine (_)) . 
map (line=> { 
Vectors.dense (line.split("\t") .map(_.trim) .filter(!"".equals(_)). 
map (_.toDouble) ) 
}) «cache () 
val numClusters=args (2) .toInt 
val numIterations= args (3) .toInt 
val runTimes= args (4) .toInt 
var clusterIndex: Int=0 
// 按 照 指定 参数 进行 聚 类 训练 并 返回 KMeansMode1 类 实例 
val clusters: KMeansModel=KMeans.train (parsedTrainingData, numClusters, 
numIterations, runTimes) 
// 输 出 聚 类 信息 
Println ("Cluster Number: " +clusters.clusterCenters.length) 
println ("Cluster Centers Information Overview: ") 
clusters.clusterCenters. foreach ( 
x=>{ 
println ("Center Point of Cluster " +clusterIndex +": ") 
print1n (x) 
clusterIndex +=1 
H 
// 开 始 检 测 每 个 测试 数据 所 属 的 簇 
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val rawTestData=sc.textFile (args (1)) 
val parsedTestData= rawlestData.map (line=> 
{ 
Vectors .dense (line. split ("\t") .map( .trim) .filter (!"".equals(_)). 
map (_.toDouble) ) 
H 
parsedTestData.collect () .foreach (testDataLine=> { 
val predictedClusterIndex: 
Int=clusters.predict (testDataLine) 
println ("The data " + testDataLine.toString +" belongs to cluster "+ 
predictedClusterIndex) 


println ("Spark MLlib kmeans clustering test finished.") 

3 
private def 
isColumnNameLine (line: String): Boolean= { 
if (line !=null&& line.contains ("Channel") ) 

true 
else 

false 


} 


前 面 提 到 的 选择 是 k-means 算法 的 关键 ,Spark MLlib 在 KMeansModel 类 里 提供 
了 computeCost 方法 ,该 方法 通过 计算 所 有 数据 点 到 其 最 近 的 中 心 点 的 平方 和 来 评估 聚 
类 的 效果 。 一 般 来 说 ,同样 的 迭代 次 数 和 算法 执行 次 数 ,这 个 值 越 小 ,代表 聚 类 的 效果 越 
好 。 但 是 在 实际 情况 下 , 因 要 考虑 到 聚 类 结果 的 可 解释 性 ,不 能 一 味 地 选择 使 
computeCost 结果 值 最 小 的 人 A。 
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通过 前 面 章节 的 学 习 , 相 信 读 者 已 经 掌握 了 大 数据 分 析 算 法 在 分 布 式 并 行 环境 下 的 
基本 思想 和 编程 方法 ,特别 是 对 MapReduce 和 Spark 环境 开发 大 数据 算法 有 了 初步 的 认 
识 。 接 下 来 ,本 节 讲 解 如 何 把 这 些 思想 和 方法 应 用 到 实际 案例 的 分 析 中 。 


10.3.1 搜索 引擎 日 志 数 据 分 析 


本 案例 使 用 某 搜索 引擎 在 2012 年 采集 的 部 分 用 户 搜索 数据 ,已 做 脱 敏 处 理 。 样 例 数 
据 如 表 10-6 所 示 。 数 据 字 段 为 用 户 搜索 时 间 用户 ID ,查询 词 .该 URL 在 返回 结果 中 的 
排名 .用 户 点 击 的 顺序 号 .用 户 点 击 的 URL。 其 中 ,用 户 ID 根据 用 户 使 用 浏览 器 访问 搜 
索引 擎 时 的 Cookie 信息 自动 赋值 . 即 同一 次 使 用 浏览 器 输入 的 不 同 查询 对 应 同一 个 用 
户 ID。 
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表 10-6 搜索 日 志 数据 样 例 





















































Nd UTIME UID KEYWORD |R |CR CURL 
6961d0c97fe93701fc9c0 
1 | 20120405000008 | d861d096cd9 重庆 邮电 大 学 1 | 1 | http://www. cqupt edu. cn/ 
96994a0480e7eledcaef http://movie. douban. com/ 
2 | 20120405000009 | 67b20d8816b7 伟大 导演 1 | 1 | review/1128960/ 
3 | 20120405000009 | 698956eb07815439fe5f | youku 1 | 1 | http://www. youku. com/ 
46e9a4503997 
fdba3f337efblcc469fcd | 推荐 待机 时 间 长 http://mobile. zol. com. cn/ 
S| ZOSZOROSOROOLG: isareti fh 的 手机 1 | 1 | 148/1487938. html 
7c54c43f3a8a0af0951c | 百度 一 下 你 就 
5 | 20120405000011 26d94a57d6c8 知道 1 | 1 | http://www. baidu. com/ 
e767b76990f9232e525 | 中 国 移动 网 上 营 = 
6 | 20120405000017 | 45014d802fd29 业 厅 1 | 1 | http://10086. en/service/ 
4a6f0d5ccObcf16e32e74 i p r 
7 | 20120405000027 ae40663b60d baidu 2 | 1 | http://site. baidu. com/ 
6cla44f96478f31cd310 . 
8 | 20120405000055 a 支付 宝 1 | 1 | http://www. alipay. com/ 
6b276bd438cc5b0delaf s 
9 | 20120405000058 rostas 联通 网 上 营业 厅 | 1 | 1 | http://www. 10010. com/ 
10| 20120405000066 | P490faba3016ece5863f | 犀牛 科 创 4 | 2 | http://www. rhinoz, net 
ce8a53cf130 
假设 管理 员 希 望 能 够 统计 以 重庆 邮电 大 学 或 CQUPT 作为 关键 词 进行 搜索 的 记录 
数 。 回 想 一 下 MapReduce 编程 的 基本 思想 ,采用 类 似 wordcount 的 基本 方法 统计 某 关键 
词 被 搜索 的 次 数 ,需要 做 的 主要 是 主 类 、MAP 类 和 REDUCE 类 的 代码 编写 。 在 主 类 中 ， 


需要 设置 的 几 个 关键 部 分 包括 指定 Job 名 称 、 主 类 入 口 、Mapper 类 入 口 和 Reducer 类 
AA. 

main 函数 调用 Jobconf 类 来 对 MapReduce Job 进行 初始 化 ,然后 调用 setJobName() 
方法 命名 这 个 Job。 对 Job 进行 合理 的 命名 有 助 于 更 快 地 找到 Job, 以 便 在 JobTracker 和 
Tasktracker 的 页 面 中 对 其 进行 监视 。 接 着 设置 Job 输出 结果 所 key,value 二 的 中 key 和 
value 数据 类 型 ,因为 结果 是 一 单词 ,个 数 二 ,所 以 key 设置 为 Text 类 型 ,相当 于 Java 中 
String 类 型 。Value 设置 为 IntWritable, 相 当 于 Java 中 的 int 类 型 。 接 下 来 设置 Job 处 
理 的 Map( 拆 分 ) .Combiner( 中 间 结 果 合 并 ) 以 及 Reduce( 合 并 ) 的 相关 处 理 类 : 


conf.setMapperClass (Map.class) ; 

conf .setCombinerClass (Reduce.class) ; 

conf .setReducerClass (Reduce.class) ; 

需要 说 明 的 是 ,Combiner 可 以 有 效 降 低 数据 传输 产生 的 压力 ,在 下 面 的 示例 代码 中 
未 使 用 ,可 在 练习 时 自行 实现 。 
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/* 


DOE RARAP RAPT 


* import 部 分 省 略 


leit 


public class WebSearchMain { 


public static void main(String[] args) throws Exception { 


} 


Configuration conf=new Configuration (); 


String[] otherArgs=new GenericOptionsParser (conf, args) . 


getRemainingArgs () 7 
if (otherArgs.length <2) { 


System.err.println ("Usage: wordcount <in> [<in> 


System.exit (2); 
} 
// 设 置 Job 名 称 


Job job= new Job(conf, "WebSearch KeyWord Count Test"); 


// 指 定 Jar 包 的 主 类 入 口 

job.setJarByClass (WebSearchMain.class); 

// 指 定 Mapper 类 入 口 

job.setMapperClass (SplitMapper.class) ; 

// 指 定 Reducer 类 入 口 

job.setReducerClass (SumReducer.class) ; 

// 输 入 输出 配置 

job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (IntWritable.class) ; 
for (int i=0; i <otherArgs.length -1; ++i) { 


wel couts "jy 


FileInputFormat .addInputPath (job,new Path (otherArgs [i])); 


} 


FileOutputFormat .setOutputPath (job, new Path (otherArgs [otherArgs. 


length -1])); 
System.exit (job.waitForCompletion (true) ? 0 : 1); 


SplitMapper 继承 org. apache. hadoop. mapreduce 包 中 的 Mapper 类 ,并 重 写 其 map 
方法 。 可 以 发 现 map 方法 中 value 值 存 储 的 是 文本 文件 中 的 一 行 ( 以 回 车 符 为 行 结束 标 
记 ) ,而 键 值 为 该 行 的 首 字 母 相 对 于 文本 文件 的 首 地 址 的 偏 移 量 。 然 后 StringTokenizer 
类 将 每 一 行 拆 分 成 为 一 个 个 的 单词 ,并 将 二 word,1 二 作为 map 方法 的 结果 输出 ,其 余 的 
工作 都 交 由 MapReduce 框架 处 理 。 对 于 关键 词 的 统计 , 仅 需 增加 一 个 过 滤 条 件 , 查 找 输 
人 数组 中 arr[2] 字 段 包含 待 统计 关键 词 的 数据 条 目 。 


/* 


* import 部 分 省 略 


*/ 


public class SplitMapper extends Mapper< Object, Text, Text, IntWritable> { 


private final static IntWritable one=new IntWritable(1); 


RERA RA 


private Text word=new Text ("sum") ; 
public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
String[] arr=value.toString().split ("\t"); 
// 统 计 网 页 搜索 日 志 中 关键 字 字 段 包含 "重庆 邮电 大 学 "或 cour 的 记录 数 
if (arr[2] .indexOf ("CQUPT") >=0 || arr[2] .indexof ("重庆 邮电 大 学 ") >=0){ 


context .write (word, one); 


t 


SumReduce 过 程 需要 继承 org. apache. hadoop. mapreduce 包 中 的 Reducer 类 ,并 重 
写 其 reduce 方法 。Map xt #2 fii ti <key, values> P key 为 单个 单词 ,而 values 是 对 应 单 
词 的 计数 值 所 组 成 的 列表 ,Map 的 输出 就 是 Reduce 的 输入 ,所 以 reduce 方 法 只 要 遍历 
values 并 求 和 , 即 可 得 到 某 个 搜索 词 的 总 次 数 ,也 就 是 该 搜索 记录 的 总 次 数 。 

/* 

* import 部 分 省 略 
+z 
public class SumReducer extends Reducer< Text, IntWritable, Text, IntWritable> { 
private IntWritable result=new IntWritable(); 
public void reduce (Text key, Iterable< IntWritable> values, Context context) 
throws IOException, InterruptedException { 
int sum=0; 
for (IntWritable val : values) { 
sum +=val.get (); 
} 
result.set (sum); 


context .write (key, result); 


} 


10.3.2 出 租车 轨迹 数据 分 析 


本 案例 使 用 某 城 市 的 出 租车 数据 ,包括 时 间 信 息 、 空 间 信 息 、 上 下 乘客 等 信息 ,数据 格 
RH csv 文件 ,数据 总 条 数 超过 1500 万 条 。 字 段 如 下 : 

medallion; UUID. 

hack_license: UUID. 

store_and_fwd_flag: 是 否 四 驱 。 

pickup_datatime: 客人 上 车 时 间 。 

dropoff_datatime: 客人 下 车 时 间 。 

passenger_count: 载 客 数量 。 

trip_time_in_secs: 载 客 时 间 。 

trip_distance: 载 客 距离 。 
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pickup_longitude: 客人 上 车 经 度 。 

pickup_latitude: 客人 上 车 纬度 。 

dropoff_longitude: 客人 下 车 经 度 。 

dropoff_latitude: 客人 下 车 纬度 。 

在 本 案例 中 ,主要 采用 Hive 数据 表 的 形式 进行 数据 分 析 , 以 方便 更 多 数据 分 析 师 理 
解 该 案例 , 仅 需 要 一 些 基 本 的 SQL 知识 就 可 以 实现 。Hive 的 库 、 表 等 数据 实际 是 HDFS 
文件 系统 中 的 目录 和 文件 ,让 开发 者 可 以 通过 SQL 语句 , 像 操作 关系 数据 库 一 样 操作 文 
件 内 容 , 比 如 执行 查询 ,统计 、 插 入 等 操作 。Hive 可 以 将 SQL 转化 为 MapReduce 任务 ， 
使 用 户 摆脱 烦琐 的 MapReduce 编程 过 程 ,整个 编译 过 程 分 为 6 个 阶段 : 

(1) Antlr 定义 SQL 的 语法 规则 ,完成 SQL 词法 .语法 解析 ,将 SQL 转化 为 抽象 语 
法 树 AST Tree。 

(2) 遍历 AST Tree, 抽 象 出 查询 的 基本 组 成 单元 QueryBlock。 

(3) 遍历 QueryBlock ,翻译 为 执行 操作 树 OperatorTree。 

(4) 逻辑 层 优化 器 进行 OperatorTree 变换 ,合并 不 必要 的 ReduceSinkOperator , W 
> shuffle 数据 量 。 

(5) 遍历 OperatorTree ,翻译 为 MapReduce 任务 。 

(6) 物理 层 优化 器 进行 MapReduce 任务 的 变换 ,生成 最 终 的 执行 计划 。 

在 使 用 Hive 进行 数据 查询 分 析 时 可 采用 shell 方式 ,也 可 以 利用 HUE 或 Zeppelin 
等 可 视 化 工具 。 在 本 例 分 析 时 ,使 用 了 Hue 可 视 化 分 析 工 具 , 如 图 10-8 所 示 。Hue 是 一 
个 开源 的 Apache Hadoop UI 系统 ,最 早 是 由 Cloudera Desktop 演化 而 来 的 ,由 Cloudera 
贡献 给 开源 社区 , 它 是 基于 Python Web 框架 Django 实现 的 。 通 过 使 用 Hue 可 以 在 浏览 
器 端的 Web 控制 台 上 与 Hadoop 集群 进行 交互 来 分 析 处 理 数据 ,例如 操作 HDFS 上 的 数 
i ,运行 MapReduce Job 等 。 














图 10-8 Hue 可 视 化 分 析 工具 
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Hue 提供 可 视 化 的 数据 操作 ,包括 基本 的 HDFS 数据 上 传 和 下 载 操 作 等 ,回想 一 下 
采用 shell 方式 进行 数据 上 传 . 下 载 的 方式 (copyFromLocal 等 ) ,这 里 就 不 再 进行 数据 上 
传 、 下 载 的 操作 展示 ,直接 进入 数据 分 析 环 节 。 如 图 10-9 所 示 , 假 定数 据 已 经 存放 在 
HDFS 上 , 且 以 Hive 数据 仓库 的 形式 存储 , 表 名 是 TDATA。 

















图 10-9 存放 在 HDFS 上 的 出 租车 数据 样 例 及 其 地 理 分 布 
OD 基本 数据 分 析 。 可 用 于 交通 规划 部 门 了 解 每 天 的 车 辆 .驾驶 员 基 本 信息 。 
O 总 记录 条 数 : 
SELECT COUNT (# ) FROM TDATA; 
@ 总 车 辆 数 : 
SELECT COUNT (medallion) FROM TDATA; 
@ 总 驾驶 员 数 : 
SELECT COUNT (hack license) FROM TDATA; 


(2) 载 客 数据 分 析 。 可 用 于 分 析 哪 些 司机 或 车 辆 最 会 接生 意 。 
O 查询 当天 生意 最 好 的 前 20 辆 出 租车 : 


SELECT medallion, COUNT(* ) AS cnt FROM TDATA GROUP BY medallion ORDER BY cnt DESC LIMIT 20; 
@ 查询 当天 单 次 载 客人 数 3 人 及 以 上 且 接 单 次 数 最 多 的 前 20 辆 出 租车 : 


SELECT medallion, passenger_count, COUNT(* ) AS cnt FROM TDATA WHERE passenger_count >=3 
GROUP BY medallion, passenger_count ORDER BY cnt DESC LIMIT 20; 


(3) 载 客 频率 分 析 。 可 用 于 分 析 哪 辆 车 或 司机 最 繁忙 。 
查询 每 辆 车 的 载 客 次 数 : 


SELECT medallion, COUNT (medallion) FROM TDATA GROUP BY medallion; 
© 查询 每 位 司机 的 载 客 次 数 : 
SELECT hack license, COUNT (hack license) FROM TDATA GROUP BY hack license; 


(4) 车 辆 行为 分 析 。 可 用 于 分 析 哪 些 车 或 司机 更 喜欢 搭载 长 途 乘 客 ,哪些 车 每 天 利 
用 率 不 高 ( 仅 搭载 1 人 ) 。 
O 每 辆 车 的 平均 行驶 里 程 : 
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SELECT medallion, AVG (CAST (trip distance as double)) FROM TDATA GROUP BY medallion; 
@ 每 辆 车 的 搭载 一 名 乘客 时 平均 行驶 里 程 : 


SELECT medallion, AVG(CAST (trip distance as double)) FROM TDATA WHERE passenger_count =1 


GROUP BY medallion; 


10.3.3 新 闻 组 数据 分 析 


经 典 的 20 个 新 闻 组 数据 集合 是 收集 了 大 约 20 000 条 新 闻 组 文档 (http://archive. 
ics. uci. edu/ ml/datasets/Twenty 十 Newsgroups) ,均匀 分 布 在 20 个 不 同 的 集合 的 一 个 数 
据 集 , 是 数据 挖掘 .机 器 学 习 领 域 常 用 的 数据 集 。 本 案例 旨 在 基于 MapReduce 计算 框架 
编程 实现 该 新 闻 组 数据 的 聚 类 分 析 。 

首先 ,回顾 下 需要 用 到 的 文本 聚 类 基础 知识 。 词 袋 模型 是 在 自然 语言 处 理 和 信息 检 
索 中 的 一 种 简单 假设 ,最 初 被 用 在 文本 分 类 中 ,将 文档 表示 成 特征 矢量 。 其 基本 思想 是 : 
假定 对 于 一 个 文本 ,忽略 其 词 序 和 语法 、 句 法 ,仅仅 将 其 看 作 是 一 些 词汇 的 集合 ,而 文本 中 
的 每 个 词汇 都 是 独立 的 。 简 单 地 说 就 是 将 每 篇 文章 都 看 成 一 个 袋子 ,构成 文章 的 元 素 都 
是 单词 ,被 装 在 这 个 文章 “袋子 "里 ,因此 称 为 词 袋 (bag of words), 

例如 有 如 下 两 个 文档 ,基于 这 两 个 文档 构造 一 个 词典 。 这 个 词典 一 共 包 含 N 个 不 同 
的 单词 ,利用 词典 的 索引 号 ,上 面 两 个 文档 的 每 一 个 都 可 以 用 一 个 N 维 向 量 表示 (用 整数 
数字 0~n 表示 某 个 单词 在 文档 中 出 现 的 次 数 ) ,如 图 10-10 所 示 。 

(1) John likes to watch movies. Mary likes movies too. 


(2) John also likes to watch football games. 


(1) Johnilikes|to watch movies. Maryllikes] movies too. 
“ (2) John also likes to watch football games. 

[‘John’, 

"likes", 


3 
swatch’, (1) [1, 2, 1, 1, 2, 0, 0, 0, 4, 1] 
"also", (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0] 










10-10 词 袋 模型 生成 矢量 


为 文档 生成 对 应 的 词 袋 模型 , 每 一 行 表 示 一 个 文档 : 


dataset=[['John', 'likes', 'to', watch", "movies", 'Mary', likes", 'movies', 'too'], 
["John', 'also', 'likes', 'to', 'watch', 'football', 'games']] 


(1) 生成 词汇 表 : 


vocabSet =set () 
for doc in dataset: 


vocabSet |=set (doc) 


AHBRARMA 


vocabList = list (vocabSet) 
(2) 为 每 一 个 文档 创建 词 袋 向 量 : 
# 词 袋 模型 


BOW= [] 
for doc in dataset: 
vec = [0] * len(vocabList) 
for word in doc: 
vec[vocabList.index[word]] +=1 


BOW. append (vec) 

基于 10. 2. 1 节 讲 解 的 MR k-means 算法 思想 ,结合 上 述 词 袋 模型 可 实现 对 新 闻 组 数 
据 的 聚 类 分 析 。 目 前 ,美国 RICE 已 开放 了 相关 工具 和 源 代码 (http://cmj4. web. rice. 
edu/MapRedKMeans. html) 。 在 该 示例 中 已 按照 词 袋 模型 完成 了 新 闻 组 数据 分 析 , 形 成 
了 vectors 向 量 文 件 和 初始 聚 类 中 心 文件 clusters, 可 以 直接 进行 聚 类 实验 ,操作 步骤 
如 下 : 

(1) 将 vectors/clusters 上 传 至 HDFS: 

hdfs dfs - copyFromLocal vectors /data 

hdfs dfs -copyFromLocal clusters /clusters 

(2) 运行 聚 类 : 


hadoop jar MapRedKMeans.jar KMeans /data /clusters 3 


/data 目录 存放 待 聚 类 数据 ,/clusters 目录 存放 初始 聚 类 ,3 表示 运行 三 次 迭代 。 
以 上 操作 的 输出 结果 如 图 10-11 所 示 。 
图 中 ， 


O 处 表示 在 HDFS 上 创建 data 数据 目录 。 

@ 处 表示 在 HDFS 上 创建 聚 类 结果 目录 。 

@ 处 表示 从 本 地 文件 系统 向 HDFS 上 传 vectors 矢量 数据 。 

@ 处 表示 从 本 地 文件 系统 向 HDFS 上 传 初始 聚 类 数据 。 

© 处 表示 使 用 hadoop 命令 调用 编译 打包 的 MRKMeans 聚 类 程序 。 
(3) 查看 聚 类 结果 : 


hdfs dfs - copYToLocal /clustersNewXxX/part— r- 00000. 
使 用 压缩 包 中 的 工具 查看 聚 类 结果 分 布 : 


java - jar GetDistribution.jar 
Enter the file with the data vectors: vectors 
Enter the name of the file where the clusers are loated: part- r- 00000 


在 美国 莱 斯 大 学 提供 的 工具 中 的 源 代码 里 省 略 了 k-means 执行 过 程 中 的 Mapper 和 
Reducer 代码 ,本 书 将 其 补充 出 来 并 增加 了 注释 部 分 。 完 成 的 示例 如 下 。 
在 主 类 入 口 里 面 ,本 示例 代码 没有 使 用 10. 3. 1 节 统 计 分 析 网 页 搜索 数据 时 的 显 式 指 
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图 10-11 MR k-means 算法 聚 类 新 闻 组 数据 示例 


定 主 类 入 口 的 方式 job. setJarByClass( WebSearchMain. class) ,而 是 采用 了 参数 录入 
的 方式 ,需要 在 运行 时 指定 数据 输入 路 径 。 


/* 
* import 部 分 省 略 
*/ 
public class MRKMeans { 
static void printUsage() { 
System.out.println ("MRKMeans < input><clusterFileDirectory><numIters>"); 
System.exit (- 1); 
} 
public static int main (String [] args) throws Exception { 
//args 异常 退出 
if (args.length !=3) { 
printUsage (); 
return 1; 
} 
for (int i=0; i <Integer.parseInt (args[2]); i++) { 
// 获 取 配 置信 息 
Configuration conf=new Configuration (); 
// 目 录 名 称 
String dirName; 
// 初 次 交互 使 用 目录 名 称 
if (i ==0) 
dirName=args[1]; 


// 使 用 当前 交互 名 称 
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else 
dirName=args[1] +i; 
// 读 取 目 录 下 的 文件 列表 
FileSystem fs=FileSystem.get (conf); 
Path path=new Path (dirName) ; 
FileStatus fstatus[]=fs.listStatus (path); 
int count= 0; 
for (FileStatus f: fstatus) { 
// 忽 略 " "开头 的 文件 (Hadoop output) 
if (£.getPath() -toUri () .getPath () .contains ("/_")) 
continue; 
count+ +; 
conf.set ("clusterInput", f.getPath() .toUri () .getPath()); 
} 
// 确 保 只 有 一 个 聚 类 文件 
if (count !=1) { 
thrownew RuntimeException ("Found more than a single file in the 
clusters directory!"); 
$ 
// 初 始 化 新 的 Job 
Job job=new Job (conf); 
job.setJobName ("MRKMeans clustering"); 
// 设 定 输入 输出 均 为 Text 
job.setMapOutputKeyClass (Text.class) ; 
job.setMapOutputValueClass (Text.class) ; 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (Text.class) ; 
// 告 诉 Hadoop 使 用 哪个 Mapper 和 Reducer 
job.setMapperClass (MRKMeansMapper.class) ; 
job.setReducerClass (MRKMeansReducer.class) ; 
// 设 置 输入 输出 格式 ,如 何 读 / 写 HDFS 
job.setInputFormatClass (Text InputFormat .class) ; 
job.setOutputFormatClass (TextOutputFommat.class) ; 
// 设 置 输入 输出 文件 
TextInputFormat.setInputPaths (job, args[0]); 
TextOutputFormat.setOutputPath (job,new Path (args[1] + (i +1))); 
// 强 制 输 入 分 割 
TextInputFormat.setMinInputSplitSize (job, 4 * 1024 * 1024); 
TextInputFormat.setMaxInputSplitSize (job, 4 * 1024 * 1024); 
// 设 置 jar 
job.setJarByClass (KMeans.class); 
// 设 置 Reduce 运行 一 次 
job.setNumReduceTasks (1); 


// 提 交 Tob 
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System.out.println ("Starting iteration " +i); 
int exitCode=job.waitForCompletion (true) ? 0 : 1; 
if (exitCode !=0) { 

System.out .print1n ("Job Failed! 





return exitCode; 


return 0; 


MRKMeansMapper 类 继承 自 Mapper 类 .首先 验证 能 否 顺 利 读 取 带 聚 类 的 文件 ,并 
设置 初始 聚 类 信息 。 


/* 
* import 部 分 省 略 
*/ 
public class MRKMeansMapper extends Mapper< LongWritable, Text, Text, Text> { 
private ArrayList< VectorizedObject> oldClusters=new ArrayList 
<VectorizedObject> (0); 
private ArrayList< VectorizedObject> newClusters=new ArrayList 
<VectorizedObject> (0); 
protected void setup (Context context) throws IOException, Interrupted- 
Exception { 
// 打 开 文 件 
Configuration conf=context.getConfiguration(); 
FileSystem dfs=FileSystem.get (conf); 
// 打 开 文 件 失败 异常 
if (conf.get ("clusterInput") ==null) 
thrownew RuntimeException ("no cluster file!"); 
// 创 建 BufferedReader 读 取 文 件 
Path src=new Path (conf.get ("clusterInput") ) 7 
FSDataInputStream fs=dfs.open (src); 
BufferedReader myReader= new BufferedReader (new InputStreamReader (fs) ) 7 
// 读 人 文件 
String cur=myReader.readLine (); 
while (cur !=null) { 
VectorizedObject temp= new VectorizedObject (cur); 
oldClusters.add (temp) ; 
VectorizedObject newCluster= temp.copy(); 
newCluster.setValue ("0"); 
newClusters.add(newCluster) ; 
cur=myReader.readLine () ; 
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public void map (LongWritable key, Text value, Context context) throws 
IOException, InterruptedException { 
JERR ERE Ai R BE PH BS SA REA 
String str=paramText .toString(); 
VectorizedObject localVectorizedObject=newVectorizedObject (str); 
double d= 9.0E99D; 
int i=--1; 
for (int j=0; j <this.oldClusters.size(); j++) { 
// 距 离 判断 
if (localVectorizeddbject .getLocation () .distance(((Vectorizedobject) 
this.oldClusters.get (j)) .getLocation()) <d) { 
iji 
 localVectorizeddbject .getLocation () .distance ( ( (Vectorizeddbject) 
this.oldClusters.get (j) ) .getLocation ()) 7 


} 
localVectorizedObject .getLocation () .addMyselfToHim 
(((VectorizedObject) this.newClusters.get (i) ) .getLocation()); 
((VectorizedObject) this.newClusters.get (i) ) .incrementValueAsInt () ; 
} 
protectedvoid cleanup (Context context) throws IOException, 
InterruptedException { 
…// 代 码 省 略 


¥ 
MRKMeansReducer 类 继承 自 Reducer 类 ,对 中 间 聚 类 结果 进行 Reduce 操作 ,在 满 
足 和 迭代 终止 条 件 时 停止 并 输出 最 终 聚 徐 信 息 。 


/* 
* import 部 分 省 略 
*/ 
public class MRKMeansReducer extends Reducer< Text, Text, Text, Text> { 
//put any private data structured you need here! 
publicvoid reduce (Text key, Iterable< Text>values, Context context) 
throws IOException, InterruptedException { 
VectorizedObject localVectorizedObject1= null; 
for (Text localText : paramIterable) { 
if (localVectorizedObject1 ==null) { 
local Vectorizedobject1=newVectorizedObject (local ext .toString()); 
} else { 
VectorizedObject localVectorizedObject2=new 
VectorizedObject (localText .toString()); 
localVectorizedObject2.getLocation () .addMyselfToHim 


382 


Siok RABAT mA DAG a KH 


(localVectorizedObject1.getLocation()); 
localVectorizedobject1.addToValueAsInt 
(localVectorizedObject2.getValueAsInt ()); 
} 
} 
this.newClusters.add (localVectorizedObject1) ; 
} 
protected void cleanup (Context context) throws IOException, 


InterruptedException { 
…// 代 码 省 略 


104 小 结 


本 章 介绍 了 大 数据 并 行 算法 的 基本 思想 和 方法 ,以 离线 处 理 和 交互 式 处 理 技术 的 代 
K MapReduce 和 Spark 为 例 进行 了 分 析 。 最 后 通过 网 页 搜索 日 志 分 析 、 出 租车 数据 统计 
分 析 和 新 闻 组 数据 分 析 3 个 真实 案例 对 大 数据 分 析 和 程序 设计 进行 了 详细 讲解 。 通 过 本 
章 的 学 习 , 和 希望 为 读者 在 大 数据 并 行 算 法 设计 与 编程 开发 商定 基础 。 
数值 计算 是 指 基于 代数 关系 的 运算 ,包括 矩阵 运算 、 多 项 式 求解 、 解 线性 方程 组 等 
计算 问题 ,属于 数值 分 析 的 范畴 。 
非 数 值 计算 是 指 基于 比较 关系 的 运算 ,包括 排序 、 选 择 、 搜 索 、 匹 配 以 及 图 论 等 方 
面 的 计算 问题 ,属于 符号 处 理 的 范畴 。 
同步 算法 是 指 某 些 进程 必须 等 待 别 的 进程 的 并 行 算法 。 
异步 算法 是 指 各 个 进程 的 执行 一 般 不 必 互 相等 待 的 并 行 算法 ,进程 的 通信 通过 动 
态 读 取 ( 修 改 ) 共 享 存储 器 的 全 局 变量 实现 。 
分 布 算法 是 指 由 通信 链 路 连接 的 多 个 场 点 或 节点 协同 完成 问题 求解 的 并 行 算法 。 
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， 简 述 如 何 基于 MapReduce 设计 并 行 算法 。 

. 简 述 如 何 基 于 Spark 设计 并 行 算法 。 

. 简 述 传统 k-means 算法 的 局 限 性 并 分 析 其 时 间 、 空 间 复 杂 度 。 

. 简 述 MapReduce k-means 算法 的 基本 思想 。 

. 结合 你 的 理解 . 谈 谈 MapReduce 和 Spark 开发 并 行 算法 的 区 别 。 
. 简 述 MapReduce 并 行 算法 设计 主 类 应 包含 的 常见 内 容 。 

. 简 述 词 袋 模型 的 基本 思想 。 

. 结合 实际 , 试 分 析 词 袋 模型 在 文本 分 析 之 外 的 可 能 应 用 领域 。 

. 简 述 什么 是 并 行 计算 ,并 从 不 同 的 角度 分 析 其 分 类 。 
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大 数据 挖掘 及 应 用 展望 


当 “ 云 计算 ”“ 物 联网 "这样 的 概念 对 大 众 而 言 还 是 一 知 半 解 的 时 候 ,“ 大 数据 " 横 空 出 
世 , 发 展 十 分 迅猛 。 例 如 ,为 了 减少 火车 脱轨 造成 的 伤亡 ,火车 上 安装 了 各 种 传感器 来 收 
集 各 个 部 位 的 运行 情况 数据 ,以 此 来 检测 存在 安全 隐患 的 器 件 。 当 然 , 这 还 远 远 没有 达到 
智能 的 水 平 ,还 需要 对 铁轨 乃至 整个 交通 系统 都 能 够 进行 实时 的 数据 采集 ,甚至 包括 天 气 
状况 。 当 把 这 些 信息 加 入 到 火车 运行 过 程 的 所 有 数据 里 面 , 一 个 大 数据 的 智能 挖掘 问题 
就 产生 了 。 如 今 ,我 们 身 处 数据 海洋 ,几乎 所 有 事物 都 时 时 刻 刻 地 产生 着 数据 ,环境 、 金 
融 、 电 商 ,医疗 ,电信 办公、 社交 媒体 …… 大 量 的 实时 数据 影响 着 我 们 的 生活 ,工作 力 至 社 
会 的 发 展 、 人 类 的 进步 ,因此 大 数据 挖掘 及 应 用 引起 了 政府 .科技 界 和 企业 界 的 高 度 重视 。 
随 着 相关 应 用 的 不 断 涌现 ,数据 挖掘 领域 的 新 知识 及 新 理论 也 在 不 断 地 出 现 。 

本 章 主要 关注 大 数据 挖掘 及 应 用 的 趋势 和 研究 前 沿 。 从 大 数据 时 代 的 发 展 回顾 与 展 
望 (11. 1 节 ) 开 始 ,随后 介绍 大 数据 挖掘 的 新 数据 类 型 和 大 数据 挖掘 的 新 方法 ,最 后 对 大 
数据 的 研究 和 应 用 发 展 进行 展望 。 


1.1 大 数据 时 代 的 发 展 回顾 与 展望 


本 节 回 顾 大 数据 发 展 的 历史 ,并 对 未 来 的 智能 分 析 进 行 展望 。 首 先 回顾 大 数据 发 展 
的 重大 事件 ,然后 简要 介绍 大 数据 分 析 从 小 数据 到 大 数据 的 发 展 历程 ,最 后 结合 人 工 智 能 
的 发 展 简要 分 析 大 数据 挖掘 的 广泛 应 用 和 前 景 。 


11.1.1 大 数据 发 展 回顾 


A 1936 年 图 灵 关 于 可 计算 的 论文 发 表 以 来 ,已 经 经 历 了 计算 机 的 诞生 、 软 件 工程 的 
诞生 以 及 后 来 互联 网 .万维网 和 网 络 科 学 .维基 百科 的 出 现 。 近 年 来 , 云 计 算 .大 数据 的 发 
展 , 使 人 类 社会 真正 进入 了 信息 社会 时 代 、 网 络 社会 时 代 和 大 数据 时 代 。 科 学 技术 及 互联 
网 的 发 展 推动 着 大 数据 时 代 的 来 临 。 各 行 各 业 每 天 都 在 产生 数量 巨大 的 数据 碎片 ,数据 
计量 单位 已 从 B、.KB、MB、GB、TB 发 展 到 PB、.EB、ZB、YB 甚至 BB、NB、DB 来 衡量 。 大 
数据 时 代 , 数 据 的 采集 也 不 再 是 技术 问题 。 更 重要 的 是 面 对 如 此 庞大 的 数据 ,我 们 怎样 才 
能 发 现 其 内 在 规律 。 大 数据 必然 无 法 用 人 脑 来 推算 、 估 测 ,或 者 用 单 台 计算 机 进行 处 理 ， 
必须 依托 云 计 算 的 分 布 式 处 理 、 分 布 式 数 据 库 ` 云 存储 和 虚拟 化 技术 。 

Hadoop 自 诞生 至 今 已 有 10 年 , 它 改变 了 企业 对 数据 的 存储 ` 处 理 和 分 析 的 过 程 ,加 速 
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了 大 数据 的 发 展 ,形成 了 极其 火爆 的 技术 生态 圈 , 并 得 到 十 分 广泛 的 应 用 。 在 过 去 的 十 年 , 世 
界 各 国政 府 ,学 术 界 、 产 业界 对 大 数据 投入 了 极 大 的 关注 并 产生 了 一 系列 理论 和 时 间 成 果 : 


2005 年 ,Hadoop 项 目 诞生 , 它 由 两 项 关键 服务 构成 : 采用 Hadoop 分 布 式 文件 系 
统 (HDFS) 的 可 靠 数 据 存储 服务 ,利用 MapReduce 的 高 性 能 并 行 数据 处 理 服务 。 
2008 年 自然) 杂志 出 版 大 数据 专辑 ,掀起 了 学 术 界 对 大 数据 科学 技术 研究 的 热潮 。 
2008 年 ,美国 发 布 白皮书 (大 数据 计算 : 在 商务 .科学 和 社会 领域 创建 革命 性 突 
破 》, 提 出 : 大 数据 真正 重要 的 是 新 用 途 和 新 见解 ,而 非 数据 本 身 。 

2009 年 ,联合 国 全 球 脉动 项 目 利 用 手机 和 社交 网 站 的 数据 源 来 分 析 预 测 从 螺旋 
价格 到 疾病 暴发 的 问题 ;美国 通过 启动 Data. gov 网 站 开放 政府 数据 大 门 , 向 公众 
提供 各 种 各 样 的 政府 数据 。 

2011 年 ,IBM 公司 的 沃 森 每 秒 可 扫描 并 分 析 4TB( 约 2 亿 页 文字 量 ) 的 数据 量 ,在 
美国 著名 智力 竞赛 电视 节目 “危险 边缘 ”(Jeopardy) 上 击败 两 名 人 类 选手 而 夺冠， 
首次 实现 了 利用 大 数据 对 人 类 的 超越 。 

2011 年 , 全球 知名 咨询 公司 麦肯锡 (McKinsey&Company) 肯 锡 全 球 研究 院 
CMGD) 发 布 报告 (大 数据 : 创新 .竞争 和 生产 力 的 下 一 个 新 领域 》, 指 出 : 大 数据 已 
经 渗透 到 当今 每 一 个 行业 和 业务 领域 ,成 为 重要 的 生产 因素 。 

2011 年 《科学 ?出 版 专刊 Dealing with Data. 

2011 年 ,中 国 工 业 和 信息 化 部 发 布 的 物 联 网 “十 二 五 ?规划 上 ,信息 处 理 技术 作为 
4 项 关键 技术 创新 工程 之 一 被 提出 来 ,其 中 包括 海量 数据 存储 、 数 据 挖掘 、 图 像 视 
频 智能 分 析 , 这 些 都 是 大 数据 的 重要 组 成 部 分 。 

2012 年 ,在 瑞士 达 沃 斯 召开 的 世界 经 济 论坛 上 ,大 数据 是 主题 之 一 ,会 上 发 布 的 
报告 (大 数据 ,大 影响 (Big Data, Big Impact) 宣称 ,数据 已 经 成 为 一 种 新 的 经 
济 资产 类 别 ,就 像 货币 或 黄金 一 样 。 

2012 年 ,美国 奥巴马 政府 发 布 ( 大 数据 研究 和 发 展 倡议 》 宣 布 将 2 亿美 元 投资 于 
大 数据 领域 ,是 大 数据 技术 从 商业 行为 上 升 到 国家 科技 战略 的 分 水 岭 ,政府 将 数 
据 定义 为 “未 来 的 新 石油 ”。 

2012 年 ,联合国 发 布 了 一 份 关于 大 数据 政务 的 白皮书 ,总 结 了 各 国政 府 如 何 利用 
大 数据 更 好 地 服务 和 保护 人 民 。 指 出 : 在 一 个 数据 生态 系统 中 ,个 人 、 公 共 部 门 
和 私人 部 门 各 自 的 角色 ,动机 和 需求 ;政府 如 果 能 合理 分 析 所 掌握 的 数据 资源 ,将 
能 “与 数 俱 进 ”, 快 速 应 变 。 

2014 年 ,美国 白宫 发 布 了 全 球 “ 大 数据 ”白皮书 的 研究 报告 (大 数据 : 抓 住 机 遇 SP 
护 价 值 》。 鼓 励 使 用 数据 推动 社会 进步 。 

2014 年 ,Spark 1.0.0 版 发 布 。Spark 拥有 Hadoop MapReduce 所 具有 的 优点 ， 
Job 中 间 输 出 结果 可 以 保存 在 内 存 , 启 用 了 内 存 分 布 数据 集 。 

2015 年 ,中 国 国务 院 发 布 (关于 印发 促进 大 数据 发 展 行动 岗 要 的 通知 )( 国 发 
[2015]50 号 ) 。 

2016 年 (大 数据 标准 化 白皮书 (2016 版 )) 发 布 。 

2016 年 ,国务 院 印 发 4* 十 三 五 国家 战略 性 新 兴 产 业 发 展 规划 》, 云 计算 、 大 数据 、 
人 工 智能 “互联 网 十 ”等 热 词 在 规划 中 多 次 出 现 。 
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。 2017 年 ,工业 和 信息 化 部 正式 发 布 了 《大 数据 产业 发 展 规划 (2016 一 2020 年 )》, 以 
强化 大 数据 产业 创新 发 展 能 力 为 核心 ,明确 了 强化 大 数据 技术 产品 研发 .深化 工 
业 大 数据 创新 应 用 、 促 进行 业 大 数据 应 用 发 展 . 加 快 大 数据 产业 主体 培育 、 推 进 大 
数据 标准 体系 建设 .完善 大 数据 产业 支撑 体系 .提升 大 数据 安全 保障 能 力 等 7 项 
任务 ,提出 大 数据 关键 技术 及 产品 研发 与 产业 化 工程 ,大 数据 服务 能 力 提 升 工程 
等 8 项 重点 工程 ,研究 制定 了 推进 体制 机 制 创新 、 健 全 相关 政策 法 规制 度 、 加 大 政 
策 扶持 力度 、 建 设 多 层次 人 才 队 伍 、 推 动 国际 化 发 展 等 5 项 保障 措施 。 
。 2017 年 7 月 ,国务 院 发 布 (新 一 代 人 工 智 能 发 展 规划 》, 同 年 11 月 ,科技 部 召开 新 
一 代 人 工 智能 发 展 规划 暨 重大 科技 项 目 启动 会 ,宣布 成 立新 一 代 人 工 智 能 发 展 规 
划 推 进 办 公 室 。 同 时 ,会 议 宣布 分 别 依 托 百度 、 阿 里 、 腾 讯 .科大 讯 飞 建设 自动 驾 
驶 \ 城 市 大 脑 、 医 疗 影像 智能 语音 领域 的 国家 人 工 智能 开放 创新 平台 。 
经 过 10 年 的 积累 和 沉淀 ,大 数据 在 理论 .技术 方面 都 取得 了 极 大 的 飞跃 ,并 逐渐 在 各 
个 领域 某 露 头角 ,发 挥 作 用 。 世 界 上 有 各 种 不 同 来 源 的 大 数据 ,如 自然 大 数据 .生命 大 数 
据 、 社 交大 数据 等 。 如 图 11-1 所 示 , 以 医学 大 数据 为 例 , 让 我 们 看 看 现代 医学 是 如 何 治疗 
疾病 的 。 医 生 的 诊断 要 依赖 于 各 种 检查 和 化 验 的 数据 结果 ,表现 为 文字 描述 、 图 表 展示 、 
静态 医学 影像 .动态 医学 影像 甚至 高 维 可 视 化 数据 等 。 可 以 说 检查 就 是 诊治 ,没有 科学 的 
大 数据 检测 手段 ,就 不 可 能 有 高 质量 的 医疗 服务 。 
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11-1 医学 监测 技术 
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再 来 看 看 近年 来 的 医学 诺 贝尔 奖 都 发 给 了 谁 ? 多 数 获奖 者 是 器 械 发 明 人 以 及 能 够 从 
检测 数据 中 发 现价 值 的 人 (图 11-2) 。 技 术 设备 的 发 展 加 快 了 医学 进步 的 步伐 。 





威廉 - 埃 因 托 芬 : 心电图 发 明 人 赫 尔 曼 - 约瑟夫 - 马 勒 : X 射 线 辐射 治疗 发 明 人 





阿兰 。 麦 克 莱 德 。 科 马克 ， 高 弗 雷 。 豪 斯 保罗 。 劳 特 布尔 ， 彼 得 。 曼 斯 菲尔德 : 
费 尔 德 : 算 机 辅助 X 射 线 断 层 摄影 (CD 发 人 核磁 共振 成 像 发 明 人 


图 11-2 著名 医学 检测 技术 科学 家 


11.1.2 从 “小 ”到 “大 ”的 数据 分 析 处 理 


数据 分 析 处 理 经 历 了 数据 分 析 数据 挖掘 ,海量 数据 挖掘 ,大 数据 挖掘 等 几 个 阶段 ,经 
历 了 从 小 数据 到 大 数据 的 发 展 历程 。 数 据 分 析 的 研究 已 经 有 几 百 年 的 历史 ,可 以 追溯 到 
1763 年 Thomas Bayes 提出 的 Bayes 理论 , 它 是 数据 挖掘 和 概率 论 的 基础 。 回 归 分 析 也 
是 数据 分 析 的 重要 数学 理论 工具 之 一 。20 世纪 .计算 机 时 代 的 到 来 让 海量 数据 的 收集 与 
处 理 成 为 了 可 能 。 最 近 几 十 年 发 展 起 来 的 神经 网 络 、 进 化 计算 、 遗 传 算 法 和 支持 向 量 机 等 
理论 模型 都 是 数据 分 析 处 理 的 有 效 模型 。 在 各 个 领域 中 取得 了 很 多 的 成 功 : 

* 1763 年 ,Thomas Bayes 的 论文 在 他 去 世 后 发 表 , 他 提出 的 Bayes 理论 将 当前 概率 
与 先 验 概率 联系 起 来 ,帮助 理解 基于 概率 估计 的 复杂 现 况 ,成 为 数据 挖掘 和 概率 
论 的 基础 。 
1805 年 ,Adrien-Marie Legendre 和 Carl Friedrich Gauss 使 用 回归 分 析 ( 最 小 二 
乘法 ) 确 定 了 天 体 ( 顽 星 和 行星 ) 绕 行 太阳 的 轨道 。 回 归 分 析 的 目标 是 估计 变量 之 
间 的 关系 ,成 为 数据 挖掘 的 重要 工具 之 一 。 
1936 年 , Alan Turing 发 表 论 文 On Computable Numbers on Computable 
Numbers, with an Application to the Etscheidungs Problem ,提出 了 通用 机 , 计 
算 机 时 代 即 将 到 来 , 它 让 海量 数据 的 收集 和 处 理 成 为 可 能 。 
1943 46, Warren McCullon 和 Walter Pitts 发 表 论 文 Logical Calculus of the 
Ideas Immanent in Nervous Activity ,提出 神经 网 络 的 概念 模型 ,阐述 了 网 络 中 

经 元 的 概念 ,每 一 个 神经 元 做 三 件 事 : 接收 输入 \ 处 理 输入 和 生成 输出 。 
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。 1965 4E, Lawrence J. Fogel 成 立 了 Decision Science 公司 ,这 是 第 一 家 专门 将 进 
化 计算 应 用 于 解决 现实 世界 问题 的 公司 。 
。 1975 年 ，John Henry Holland 出 版 Adaptation in Natural and Artificial 
Systems ,成 为 遗传 算法 领域 具有 开创 意义 的 著作 。 
。 1992 年 , Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vapnik 提出 改进 
的 支持 向 量 机 ,充分 考虑 到 非 线 性 分 类 问题 。 
20 世纪 70 年 代 , 随 着 数据 库 管 理 系 统 的 成 熟 ,存储 和 查询 巨 量 数据 (高 达 千 万 亿 字 
节 ) 成 为 可 能 。 数 据 仓 库 的 出 现 ,促使 用 户 的 思维 方式 从 面向 事务 处 理 转变 到 数据 分 析 处 
理 。 在 1989 年 召开 的 国际 人 工 智能 联合 学 术 会 议 上 提出 “数据 库 中 的 知识 发 现 ”(KDD) 
这 一 学 术 术 语 ,由 此 诞生 了 数据 挖掘 这 一 新 的 研究 领域 ,ACM IEEE 等 学 术 机 构 纷 纷 组 
织 学 术 会 议 ,推动 数据 挖掘 的 研究 发 展 , 掀 起 了 数据 挖掘 的 研究 热潮 。2015 年 ,美国 白宫 
任命 了 第 一 位 首席 数据 科学 家 和 制定 数据 策略 的 副 首席 技术 官 ,政府 管理 越 来 越 依赖 于 
大 数据 的 科学 分 析 。 


11.1.3 大 数据 的 智能 分 析 与 挖掘 


自从 1956 年 达 特 茅 斯 会 议 提出 “人 工 智能 ”这 一 术语 以 来 ,人 工 智 能 这 一 学 科 经 历 了 
60 年 的 发 展 , 形 成 了 符号 主义 .连接 主义 ,行为 主义 三 大 学 派 ,分 别 从 不 同 角度 研究 和 控 
讨 如 何 用 机 器 模拟 智能 的 问题 。 人 们 不 禁 要 问 ,机 器 真 的 能 够 实现 智能 吗 ? 为 了 测试 机 
器 是 不 是 具备 人 类 智能 的 能 力 ,图 灵 1950 年 设计 了 图 灵 测 试 : 如 果 计 算 机 能 够 在 5 分 钟 
内 回答 人 类 测试 者 提出 的 一 系列 问题 , 且 超 过 30% 的 回答 让 测试 者 误 认 为 是 人 类 在 回 
答 , 则 计算 机 通过 测试 。 现 在 计算 机 不 但 通过 了 图 灵 测 试 , 还 取得 了 一 系列 超 乎 想象 的 成 
功 。 在 一 系列 智能 挑战 赛 中 ,机 器 战胜 了 人 类 .而 且 机 器 智能 在 多 个 社会 领域 中 取得 了 成 
功 应 用 (图 11-3)。 
1997 年 5 月 11 日 是 机 器 与 人 类 之 间 挑 战 赛 的 历史 性 一 天 。IBM 公司 的 深蓝 超 
级 计算 机 在 正常 时 限 的 比赛 中 首次 击败 了 当时 世界 排名 第 一 的 国际 象棋 大 师 卡 
斯 帕 罗 夫 ,标志 着 国际 象棋 进入 了 新 的 时 代 。 
2011 年 ,由 IBM 公司 和 美国 得 克 萨 斯 大 学 联合 研制 的 超级 计算 机 沃 森 在 美国 最 
受 欢迎 的 智力 竞赛 电视 节目 (危险 边缘 ) 击 败 该 节目 历史 上 最 成 功 的 选手 Ken 和 
Brad 成 为 新 的 王者 。 
2015 年 ,在 德国 举办 的 汉诺威 消费 电子 信息 及 通信 博览 会 的 开幕 式 上 ,马云 通过 
扫 脸 取代 了 传统 的 密码 支付 认证 ,为 德国 总 理 默 克 尔 从 淘宝 网 上 购买 了 1948 年 
的 汉诺威 纪念 邮票 ,开启 了 刷 脸 支付 时 代 的 大 门 。 
2015 年 , 讯 飞 听见 实现 了 全 球 首 次 会 议 字 音 同步 直播 。 
2016 年 1 月 ,在 没有 任何 让 子 的 情况 下 , AlphaGo 以 5 : 0 完胜 欧洲 围棋 冠军 、 职 
业 围 棋 二 段 选手 樊 摩 ,在 围棋 人 工 智能 领域 实现 了 一 次 史无前例 的 突破 。 紧 接 
着 ,AlphaGo 又 在 全 世界 的 高 度 关 注 下 4 : 1 战胜 了 世界 排名 第 一 的 韩国 围棋 选 
手 李 世 石 。 
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深蓝 战胜 国际 象棋 大 师 马云 刷 脸 支付 , 2015 
上 斯 帕 罗 夫 , 1997 





























谷歌 AlphaGo 击 败 欧洲 围棋 沃 森 在 美国 Jeopardy 
EFM, 2016 节目 中 击败 人 类 先 
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讯 飞 听见 字音 同步 直播 , 2015 美 交管 局 认定 谷歌 自动 驾驶 
系统 为 “驾驶 员 ”, 2016 


图 11-3 人 工 智能 技术 的 典型 应 用 事件 


2016 年 2 月 ,美国 国家 公路 安全 管理 局 认定 Google 自动 驾驶 汽车 内 部 的 计算 机 
可 视 为 “驾驶 员 ”。 
2016 年 底 , 神 秘 围 棋 大 师 Master 横 空 出 世 横扫 人 类 围棋 高 手 , 豪 取 60 连 胜 。 
。 2017 年 1 月 6 日 第 四 季 《 最 强大 脑 ) 节 目 中 ,“ 百 度 大 脑 " 现 场 挑战 名 人 堂 选手 的 
“最 强大 脑 ”, 在 图 像 和 语音 识别 等 领域 一 决 高 下 。 最 终 百度 大 脑 的 人 工 智 能 机 器 
人 “小 度 ” 以 3 : 2 获胜 ,上 演 了 中 国 版 * 人 机 大 战 ”。 

这 些 成 功 又 掀起 新 一 轮 的 人 工 智能 热潮 ,人工 智能 正 迎 来 最 受 关注 的 发 展 时 代 ， 
Master 在 围棋 比赛 中 能 找到 新 的 规律 ,甚至 打破 人 类 既 有 的 规律 体系 。 从 这 个 意义 上 
来 讲 , 人 工 智能 就 是 时 代 的 “望远镜 ”, 能 够 帮助 我 们 改善 决策 的 方式 ,以 前 所 未 有 的 方 
法 解决 问题 。 近 年 来 不 断 发 生 的 人 机 大 战 让 人 们 深切 感受 到 了 人 工 智 能 给 人 类 智慧 
带 来 的 挑战 与 压力 ,有 助 于 人 类 自身 认 清 智能 的 边界 .谨慎 理解 人 工 智 所 蕴含 的 机 遇 
与 风险 。 

那么 ,机 器 智能 最 终 会 不 会 超越 人 类 呢 ? 对 此 ,社会 上 有 许多 讨论 。 归 纳 起 来 ,大 致 
有 三 种 观点 。 第 一 种 观点 是 超越 派 . 认 为 机 器 智能 最 终 将 超越 人 类 。 第 二 种 观点 是 无 限 
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趋 近 派 ,认为 机 器 智能 会 永远 接近 人 类 智能 ,但 不 会 超越 。 第 三 种 观点 是 中 立 和 已 经 发 生 
派 ,认为 机 器 智能 与 人 类 智能 充分 融合 。 不 管 哪 种 观点 ,机 器 智能 作为 人 类 智能 的 高 级 技 
术 工 具 之 一 ,已 经 取得 了 人 们 的 认可 。 科 学 技术 的 发 展 直观 体现 在 人 类 使 用 工具 手段 的 
进步 ,机 器 战胜 人 ,实际 上 是 一 个 人 或 者 说 一 群 人 利用 机 器 和 科技 手段 战胜 了 另外 一 个 
或 者 一 群 人 。 因 此 我 们 没有 必要 杞 人 忧 天 ,担心 有 一 天 机 器 智能 会 战胜 人 类 智能 , 甚 
至 机 器 会 消灭 人 类 。 当 然 ,避免 将 人 工 智能 技术 和 智能 机 器 应 用 于 危害 人 类 的 领域 ， 
也 需要 引起 社会 各 界 的 关注 ,就 像 人 类 需要 和 平 利用 核能 技术 ,但 同时 又 要 限制 核武 
器 一 样 。 

大 数据 智能 不 只 体现 在 机 器 人 上 ,还 表现 在 智能 数据 分 析 对 决策 的 支持 上 。 从 数据 
的 采集 到 智能 决策 的 制定 ,需要 经 过 数据 的 感知 与 获取 、 信 息 的 编码 存储 与 传递 .知识 的 
认 知 与 理解 ,智能 判断 与 决策 行动 等 多 个 阶段 ,而 且 这 还 可 能 是 一 个 循环 往复 的 复杂 六 
程 , 每 个 阶段 都 需要 通过 智能 技术 来 实现 ,这 也 是 对 大 数据 分 析 与 处 理 的 挑战 。 如 图 11-4 
所 示 , 在 云 计算 和 大 数据 时 代 , 我 们 面 对 的 数据 产生 设备 是 多 样 的 ,复杂 的 ,甚至 人 类 本 身 
也 在 产生 数据 ,如 何 实现 不 同 多 源 、 异 构 数 据 的 整合 与 加 工 , 将 数据 加 工 成 我 们 可 以 读 懂 
的 信息 是 第 一 个 阶段 。 随 着 信息 的 累积 ,人 们 已 难以 辨识 繁多 信息 中 的 有 用 知识 。 通 过 
数据 挖掘 等 技术 手段 从 信息 中 提取 有 用 的 知识 ,并 采用 可 视 化 等 技术 手段 进行 解读 ,能 够 
为 政府 、 企 事业 单位 提供 有 力 的 决策 支持 。 
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11-4 从 数据 到 决策 的 循环 过 程 





。 传统 数据 大 多 被 存储 在 本 地 ,并 非 全 部 公开 数据 资源 ,例如 市 场 调研 数据 ,企业 数 
据 、 生 产 数 据 、 制 造 数据 、 消 费 数据 、 医 疗 数据 、 金 融 数 据 等 。 把 握 数 据 资源 的 企业 
或 行业 必然 成 为 大 数据 的 直接 受益 者 。 

。 移 动 互联 网 的 快速 发 展 使 搜索 引擎 及 智能 手机 等 移动 设备 成 为 重要 的 数据 入 口 。 
社交 网 络 、 电 子 商务 以 及 各 类 应 用 APP 等 将 分 散 的 “小 数据 ” 变 成 “大 数据 ”。 

。 物 联网 的 发 展 能 够 实现 “万 物 互联 ,所 有 事物 产生 的 信息 都 是 数据 ,所 有 事物 之 
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间 都 具有 “数据 化 ”的 联系 。 
通过 本 书 的 学 习 , 我 们 知道 大 数据 的 关注 点 已 经 不 再 仅仅 是 数据 量 大 了 ,而 最 重要 的 
是 对 大 数据 进行 分 析 和 挖掘 ,只 有 通过 智能 分 析 才 能 获取 深入 的 有 价值 的 信息 ,并 将 这 
些 信 息 加 工 成 人 们 可 快速 .准确 理解 的 知识 。 


112 大 数据 中 的 新 数据 类 型 


本 节 主 要 介绍 非 结构 化 大 数据 、 半 结构 化 大 数据 和 空间 大 数据 等 大 数据 挖掘 中 会 遇 
到 的 新 数据 类 型 ,帮助 读者 更 清楚 地 认识 未 来 运用 大 数据 技术 可 分 析 的 内 容 。 

由 于 能 够 处 理 多 种 数据 结构 ,大 数据 能 够 在 最 大 程度 上 利用 互联 网 上 记录 的 人 类 行 
为 数据 进行 分 析 。 大 数据 出 现 之 前 ,计算 机 所 能 够 处 理 的 数据 都 需要 前 期 进行 结构 化 处 
理 , 并 记录 在 相应 的 数据 库 中 。 但 大 数据 技术 对 于 数据 的 结构 要 求 大 大 降低 ,互联 网 上 人 
们 留 下 的 社交 信息 、 地 理 位 置信 息 、 行 为 习惯 信息 、 偏 好 信息 等 各 种 维度 的 信息 都 可 以 实 
时 处 理 , 立 体 完整 地 勾勒 出 每 一 个 个 体 的 各 种 特征 。 在 大 数据 时 代 , 随 着 信息 技术 的 发 展 
和 “互联 网 十 ”的 普及 ,数据 以 不 同 的 方式 在 自动 产生 并 被 收集 ,例如 : 

。 过 去 ,一 些 记录 是 以 模拟 形式 存在 的 ,或 者 以 数据 形式 存在 但 是 存储 在 本 地 ,不 是 
公开 数据 资源 ,没有 开放 给 互联 网 用 户 ,例如 音乐 .照片 ,视频 ,监控 录像 等 影音 资 
料 。 现 在 这 些 数据 不 但 数据 量 巨大 ,并 且 共享 到 了 互联 网 上 , 面 对 所 有 互联 网 用 
P ,其 数量 之 大 是 前 所 未 有 的 。 第 1 章 图 1-1 中 提 到 ,Facebook 每 分 钟 有 21 万 多 
张 照片 上 传 或 被 传播 ,形成 了 海量 的 数据 ,以 每 张 照片 500KB 计算 ,一 小 时 就 会 
产生 6TB 的 数据 。 
移动 互联 网 出 现 后 ,移动 设备 的 很 多 传感器 收集 了 大 量 的 用 户 点 击 数据 和 行为 数 
据 。 例 如 ,iPhone6 中 内 置 的 相机 传感器 .声波 传感器 .温度 传感器 .压力 传感器 、 
气压 传感器 .加 速度 传感器 等 ,它们 每 天 产生 大 量 的 点 击 数据 ,形成 用 户 大 量 行为 
数据 ,更 不 用 说 用 户 利 用 手机 访问 网 络 产生 的 交互 数据 .日 志 数据 等 。 

在 高 德 .百度 .Google 等 电子 地 图 和 导航 应 用 出 现 后 ,产生 了 大 量 的 地 理 静 态 数 
据 和 用 户 动态 数据 。 这 些 数 据 不 同 于 传统 数据 ,传统 数据 代表 一 个 属性 或 一 个 度 
量 值 , 但 是 这 些 地 图 产生 的 数据 代表 着 一 种 行为 .一 种 习惯 ,这 些 数据 经 频率 分 析 
后 会 产生 巨大 的 商业 价值 。 基 于 地 图 产生 的 数据 流 是 一 种 新 型 的 数据 类 型 ,在 过 
去 是 不 存在 的 。 

进入 了 社交 网 络 的 年 代 后 ,互联 网 行为 主要 由 用 户 参 与 创造 ,大 量 的 互联 网 用 户 
创造 出 海量 的 社交 行为 数据 ,这 些 数据 是 过 去 未 曾 出 现 的 ,其 揭示 了 人 们 行为 特 
点 和 生活 习惯 。 

电子 商务 的 崛起 产生 了 大 量 网 上 交易 数据 ,包含 支付 数据 ,查询 行为 .物流 运输 、 
购买 喜好 点击 顺序 .评价 行为 等 ,其 次 是 信息 流 和 资金 流 数据 。 

大 数据 挖掘 中 的 新 数据 类 型 主要 有 以 下 3 类 : 

(1) 非 结构 化 数据 。 

非 结 构 化 数据 库 是 指 其 字段 长 度 可 变 , 并 且 每 个 字段 的 记录 又 可 以 由 可 重复 或 不 可 
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重复 的 子 字段 构成 的 数据 库 , 用 它 不 仅 可 以 处 理 结构 化 数据 (如 数字 ,符号 等 信息 ) ,而且 
更 适合 处 理 非 结构 化 数据 (文本 、 图 像 .声音 .影视 . 超 媒体 等 信息 ) 。 

非 结构 化 Web 数据 库 主要 是 针对 非 结 构 化 数据 而 产生 的 ,与 以 往 流行 的 关系 数据 库 
相 比 ,最 大 的 区 别 在 于 它 突 破 了 关系 数据 库 结 构 定 义 不 易 改变 和 数据 定 长 的 限制 ,支持 重 
复 字段 . 子 字段 以 及 变 长 字段 .并 实现 了 对 变 长 数据 和 重复 字段 进行 处 理 和 数据 项 的 变 长 
存储 管理 ,在 处 理 连 续 信 息 (包括 全 文 信息 ) 和 非 结构 化 信息 (包括 各 种 多 媒体 信息 ) 中 有 
着 传统 关系 型 数据 库 无 法 比拟 的 优势 。 

(2) 半 结 构 化 数据 。 

半 结 构 化 数据 就 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 、 面 向 对 象 数据 库 中 的 数 
据 ) 和 完全 无 结构 的 数据 (如 声音 、 图 像 文件 等 ) 之 间 的 数据 , 因 其 层次 性 ,自述 性 、 动 态 可 
变性 等 特点 ,被 广泛 应 用 在 互联 网 . 异 构 数据 集成 和 交换 等 领域 。HTML 文档 .XML X 
档 、SGML 文档 、Web 数据 等 就 属于 半 结 构 化 数据 。 这 些 数据 一 般 是 自 描述 的 ,数据 的 结 
构 和 内 容 混 在 一 起 ,没有 明显 的 区 分 。 

(3) 空间 大 数据 。 

与 空间 信息 或 位 置 相关 的 大 数据 统称 为 空间 大 数据 ,包括 以 下 几 类 : 

。 地 理 数 据 。 指 直接 或 间接 关联 着 相对 于 地 球 的 某 个 地 点 的 数据 ,包括 自然 地 理 数 
据 和 经 济 社会 数据 ,例如 地 貌 数 据 、 土 壤 数 据 、 水 温 数 据 \ 植 被 数据 等 ,特点 是 体 量 
大 ,较为 规则 化 ,变化 较 慢 。 
轨迹 数据 。 指 通过 GNSS 等 测量 手段 以 及 网 络 签到 等 方式 获得 的 用 户 活动 数据 ， 
可 以 被 用 来 反映 用 户 的 位 置 和 社会 偏好 ,例如 个 人 轨迹 数据 、 群 体 轨迹 数据 、 车 辆 
轨迹 数据 等 ,特点 是 数据 体 量 大 ,信息 碎片 化 ,准确 性 较 低 , 半 结构 化 。 
空间 媒体 数据 。 包 含 位 置 的 数字 化 的 文字 图形、 图 像 、 视 频 影 像 等 媒体 数据 , 主 
要 来 源 于 移动 社交 网 络 、 微 博 等 新 型 互联 网 应 用 ,例如 微 信 、 微 博 等 产生 的 数据 ， 
特点 是 数据 体 量 大 ,数据 类 型 多 样 , 非 结构 化 为 主 。 

空间 大 数据 为 数据 分 析 、 知 识 发 现 和 决策 带 来 了 良好 的 机 遇 , 同 时 ,其 对 数据 处 理 能 
力也 提出 了 重大 挑战 。 空 间 数 据 作 为 整体 纳入 到 统一 的 空间 数据 仓库 中 ,能 够 克服 传统 
地 理 信息 数据 存储 和 数据 分 析 的 过 程 分 离 ,提升 空间 数据 的 处 理 能 力 。 然 而 ,如 此 庞大 规 
模 的 空间 大 数据 对 现 有 的 数据 仓库 从 存储 、 处 理 和 分 析 等 各 方面 都 提出 了 新 的 挑战 。 大 
数据 平台 下 的 空间 联机 分 析 处 理 (Spatial OLAP) 是 一 种 甸 新 的 决策 支持 工具 ,提供 GIS 
的 地 图 可 视 化 与 非 空间 数据 的 交互 和 分 析 能 力 , 通 过 基于 地 图 的 上 卷 、 下 销 、 切 片 、 切 块 等 
操作 以 及 空间 数据 特有 的 地 图 覆盖 等 功能 ,实现 对 空间 大 数据 进行 可 视 化 的 、 多 视角 的 、 
多 层次 的 .多 侧面 的 查询 分 析 ; 支 持 空间 大 数据 的 多 种 维度 之 间 、 多 个 数据 粒度 之 间 、 多 个 
专题 时 间 、 多 个 时 间 之 间 的 OLAP 操作 ,实现 在 地 图 和 多 维 图 标 上 同步 显示 多 层级 聚集 
组 成 的 而 多 维 模式 ,在 线 、 快 速 实现 时 空 分 析 和 挖掘 。 

信息 基础 设施 发 展 各 阶段 的 空间 大 数据 特征 对 比如 表 11-1 所 示 。 
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表 11-1 信息 基础 设施 发 展 各 阶段 的 空间 大 数据 特征 对 比 





























发 展 阶段 
比较 维度 
第 一 代 第 二 代 第 三 代 新 一 代 
文件 /关系 数据 | 关系 模型 / 空 | 结构 化 数据 模型/ 非 结 构 化 
ARDERE E 模型 间 数据 模型 | 数据 模型 
基于 主机 ,个 | 基于 局 域 网 C/S | Æ 于 Internet = 
数据 存储 模型 | 人 计算 机 。 “| 结构 的 B/S 架构 | 基于 云 存储 (HDES) 
E a ”| 向 以 存储 为 中 | 分布 式 并 行 计算 模型 
数据 计算 模型 | 以 计算 为 中 心 | 以 计算 为 中 心 | BEE — a 
数据 服务 模型 | 系统 之 间 独 立 | 系统 之 间 独 立 。 | 外 共享 和 协同 | 向 云 服务 平台 发 展 
方向 发 展 
应 用 编程 接口 | 向 开发 平台 广 - 
应 用 开发 模型 “| 无 fae 向 开放 云 平台 过 渡 
应 用 服务 模型 “| 购买 软件 | 购买 软件 购买 服务 。 | 免费 服务 (更 关注 用 户 隐私 ) 











113 大 数据 挖掘 的 新 方法 


本 节 主 要 介绍 深度 学 习 、 知 识 计 算 、 社 会 计算 和 特异 群 组 挖掘 等 大 数据 挖掘 的 新 方 
法 ,使 读者 掌握 大 数据 时 代 的 数据 挖掘 新 技术 。 


11.3.1 深度 学 习 


1956 年 , 几 个 计算 机 科学 家 相聚 在 达 特 茅 斯 会 议 (Dartmouth Conferences) ,提出 了 
“人 工 智能 ”的 概念 。 其 后 ,人 工 智能 就 一 直 蒙 绕 于 人 们 的 脑海 之 中 ,并 在 科研 实验 室 
中 慢 慢 旷 化 。 机 器 学 习作 为 实现 人 工 智 能 的 一 种 重要 方式 ,最 基础 的 是 运用 算法 来 分 
析 数 据 ,从 中 学 习 、 测 定 或 预测 现实 世界 某 些 事 。 然 而 ,这 些 早 期 机 器 学 习 方法 都 没有 实 
现 通用 人 工 智 能 的 最 终 目 标 ,甚至 没有 实现 狭义 人 工 智能 的 一 小 部 分 目标 。 事 实证 明 ,多 
年 来 机 器 学 习 的 最 佳 应 用 领域 之 一 是 计算 机 视觉 ,尽管 它 仍然 需要 大 量 的 手工 编码 来 完 
成 工作 。 

深度 学 习 的 概念 源 于 人 工 神经 网 络 的 研究 , 含 多 隐 层 的 多 层 感 知 器 就 是 一 种 深度 学 
习 结 构 。 深 度 学 习 通 过 组 合 低层 特征 形成 更 加 抽象 的 高 层 表 示 属 性 类 别 或 特征 ,以 发 现 
数据 的 分 布 式 特征 表示 。 近 年 来 ,深度 学 习 在 语音 、 图 像 以 及 自然 语言 理解 等 应 用 领域 取 
得 一 系列 重大 进展 。 从 2009 年 开始 ,微软 研究 院 的 Dahl 等 人 率先 在 语音 处 理 中 使 用 深 
度 神经 网 络 (DNN) ,将 语音 识别 的 错误 率 显著 降低 ,从 而 使 得 语音 处 理 成 为 成 功 应 用 深 
度 学 习 的 第 一 个 领域 。 在 图 像 领 域 ,2012 年 , Hinton 等 人 使 用 深层 次 的 卷 积 神经 网 络 
(CNN) HE Image Net 评测 上 取得 巨大 突破 ,将 错误 率 从 26% 降 低 到 15% ,重要 的 是 ,这 个 
模型 中 并 没有 任何 手工 构造 特征 的 过 程 , 网 络 的 输入 就 是 图 像 的 原始 像素 值 。 在 此 之 后 ， 
采用 类 似 的 模型 ,通过 使 用 更 多 的 参数 和 训练 数据 ,Image Net 评测 的 结果 得 到 进一步 改 
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2G ,错误 率 下 降 至 2013 4E AY 11.2%, 
人 工 智能 .机 器 学 习 、 深 度 学 习 的 发 展 进程 如 图 11-5 所 示 。 
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图 11-5 人 工 智 能 .机 器 学 习 、 深 度 学 习 的 发 展 进程 





在 国内 ,2011 年 科大 讯 飞 首次 将 DNN 技术 运用 到 语音 云 平台 ,并 提供 给 开发 者 使 
用 ,并 在 讯 飞 语音 输入 法 和 讯 飞 口 讯 等 产品 中 得 到 应 用 。 百 度 成 立 了 IDL( 深 度 学 习 研 究 
院 ) ,专门 研究 深度 学 习 算法 ,目前 已 有 多 项 深度 学 习 技术 在 百度 产品 上 线 。 此 外 ,国内 其 
他 公司 ,如 搜狗 、 云 知 声 等 ,也 纷纷 开始 在 产品 中 使 用 深度 学 习 技术 。 


11.3.2 知识 计算 


要 对 数据 进行 高 端 分 析 ,就 需要 从 大 数据 中 先 抽取 出 有 价值 的 知识 ,并 把 它 构 建成 可 
支持 查询 、 分 析 和 计算 的 知识 库 。 基 于 大 数据 的 知识 计算 是 大 数据 分 析 的 基础 ,也 是 近年 
来 国内 外 工业 界 ,学术 界 研究 的 一 个 热点 。 目 前 ,世界 各 国 的 相关 组 织 建立 的 知识 库 多 达 
50 余 种 ,相关 的 应 用 系统 更 是 达到 上 百 种 。 其 中 具有 代表 性 的 知识 库 或 应 用 系统 有 
Know It All, Text Runner, NELL, Probase, Satori, PROSPERA 、SOFIE, 以 及 一 些 基 于 
维基 百科 等 在 线 百 科 知 识 构建 的 知识 库 , 如 DBpedia, YAGO, Omega 和 Wiki 
Taxonomy 等 。 

知识 图 谱 (knowledge graph) 也 称 为 科学 知识 图 谱 , 它 通过 将 应 用 数学 .图 形 学 .信息 
可 视 化 技术 、 信 息 科 学 等 理论 和 方法 与 计量 学 引文 分 析 、 共 现 分 析 等 方法 结合 ,并 利用 可 
视 化 的 图 谱 形 象 地 展示 了 学 科 的 核心 结构 .发展 历史 ,前 沿 领域 以 及 整体 知识 架构 达到 多 
学 科 融 合 目的 的 现代 理论 ,是 知识 计算 的 核心 。 随 着 互联 网 中 用 户 生 成 内 容 (UGC) 和 开 
放 链 接 数据 (LOD) 等 大 量 RDF 数据 被 发 布 ,互联 网 又 逐步 从 仅 包 含 网 页 与 网 页 之 间 超 
链接 的 文档 万 维 网 转变 为 包含 大 量 描述 各 种 实体 和 实体 之 间 丰 富 关系 的 数据 万 维 网 。 在 
此 背景 下 ,知识 图 谱 正式 被 Google 公司 于 2012 年 5 月 提出 ,其 目标 在 于 改善 搜索 结果 ， 
描述 真实 世界 中 存在 的 各 种 实体 和 概念 以 及 这 些 实体 、 概 念 之 间 的 关联 关系 。 紧 随 其 后 ， 
国内 外 的 其 他 互联 网 搜索 引擎 公司 也 纷纷 构建 了 自己 的 知识 图 谱 , 如 微软 的 Probase、 搜 
狗 的 知 立方 、 百 度 的 知心 。 知 识 图 谱 在 语义 搜索 、 智 能 问答 数据 挖掘 数字 图 书馆 、 推 荐 
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系统 等 领域 有 着 广泛 的 应 用 。 国 内 学 术 界 也 对 中 文 知 识 图 谱 的 构建 与 知识 计算 进行 了 大 
量 的 研究 和 开发 工作 ,代表 性 工作 有 中 国 科学 院 计算 技术 研究 所 的 Open KN, 中 国 科学 
院 数学 与 系统 科学 研究 院 陆 汝 铃 院士 提出 的 知 件 (knowware) ,百度 推出 的 中 文 知 识 图 谱 
搜索 ,搜狗 推出 的 知 立方 平台 ,复旦 大 学 GDM 实验 室 推 出 的 中 文 知 识 图 谱 展示 平台 
(CN-DBpedia) 等 。 

支持 知识 计算 的 基础 是 构建 知识 库 ,包括 3 个 部 分 : 

(1) 知识 库 的 构建 。 构 建 几 个 基本 的 构成 要 素 ,包括 抽取 概念 实例、 属性 和 关系 。 

。 手动 构建 。 依 靠 专 家 知识 编写 一 定 的 规则 ,从 不 同 的 来 源 收 集 相关 的 知识 信息 ， 
构建 知识 的 体系 结构 ,例如 知 网 (Hownet) .同义词 词 林 、OpenCyc 等 。 

。 自动 构建 。 基 于 知识 工程 .机 器 学 习 、 人 工 智能 等 理论 自动 从 互联 网 上 采集 并 抽 
取 概 念 、 实 例 、 属 性 和 关系 ,例如 Probase, YAGO 等 。 

(2) 多 源 知识 的 融合 。 是 指 为 了 解决 知识 的 复 用 问题 ,需要 对 多 个 来 源 的 知识 进行 

清理 和 融合 工作 ,包括 对 概念 、 实 例 进行 映射 、 消 歧 , 对 关系 进行 合并 等 。 

。 手动 融合 。 非 常 费时 而 且 容易 出 错 , 一 般 适用 规模 比较 小 的 知识 库 。 

。 自动 融合 。 基 于 机 器 学 习 、 人 工 智能 和 本 体 工 程 等 算法 进行 融合 ,扩展 性 较 好 。 
例如 ,YAGO 将 维基 百科 的 分 类 体系 和 WordNet 的 分 类 体系 进行 融合 , Probase 
基于 概率 化 的 实体 消解 的 知识 整合 技术 将 IMDB、Freebase 等 结构 化 数据 整合 
起 来 。 

(3) 知识 库 的 更 新 。 知 识 库 的 更 新 分 为 两 个 方面 ,一 是 新 知识 的 加 入 ,二 是 已 有 知识 

的 更 改 。 从 更 新 方式 来 讲 分 为 两 类 : 

。 基于 知识 库 构建 人 员 的 更 新 。 准 确 性 较 高 ,对 人 力 的 消耗 较 大 。 

。 基于 知识 库存 储 的 时 空 信息 的 更 新 。 巾 知识 库 自 身 更 新 ,需要 人 工 干 预 的 较 少 ， 
准确 率 不 高 。 


11.3.3 社会 计算 


社会 计算 的 概念 首次 出 现 于 1994 年 。Schuler 指出 “社会 计算 可 以 是 任何 一 种 类 型 
的 计算 应 用 ,以 软件 作为 社交 关系 的 媒介 或 聚焦 ”, 强 调 了 社会 软件 应 用 的 重要 性 。Dryer 
等 人 认为 : 社会 计算 是 人 、 社 会 行为 及 系统 交互 使 用 计算 技术 来 相互 影响 ,其 设计 模型 重 
点 分 析 了 移动 计算 系统 中 系统 设计 、 人 类 行为 .社会 贡献 及 交互 结果 等 因素 的 相互 作用 。 
Charron 等 人 将 社会 计算 定义 为 技术 影响 个 体 或 社区 ,而 非 机 构 的 社会 架构 。 中 国 科学 
院 自动 化 研究 所 王 飞跃 研究 员 从 广义 和 狭义 两 个 层面 给 出 了 社会 计算 的 定义 : 广义 而 
言 ,社会 计算 是 指 面向 社会 科学 的 计算 理论 和 方法 ;狭义 而 言 ,社会 计算 是 面向 社会 活动 、 
社会 过 程 、 社 会 结构 .社会 组 织 及 其 作用 和 效应 的 计算 理论 和 方法 。 

以 微 信 、 微 博 等 为 代表 的 在 线 社交 网 络 和 社会 媒体 正 深刻 改变 着 人 们 传播 信息 和 获 
取信 息 的 方式 ,人 和 人 之 间 结 成 的 关系 网 络 承载 着 网 络 信息 的 传播 ,人 的 互联 成 为 信息 互 
联 的 载体 和 信息 传播 的 媒介 ,社会 媒体 的 强 交 互 性 、 时 效 性 等 特点 使 其 在 信息 的 产生 、 消 
费 和 传播 过 程 中 发 挥 着 越 来 越 重 要 的 作用 ,成 为 一 类 重要 信息 载体 。 
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1. 在 线 社会 网 络 的 结构 分 析 


在 线 社会 网 络 在 微观 层面 上 具有 随机 化 无 序 的 现象 ,在 宏观 层面 上 往往 呈现 出 规则 
化 有 序 的 现象 ,社区 结构 作为 探索 和 分 析 连 接 微 观 和 宏观 的 网 络 中 观 结构 ,在 近年 来 成 
为 研究 热点 ,为 理 清 网 络 具 有 的 这 种 看 似 矛 盾 的 不 同 尺 度 的 结构 特性 提供 了 很 好 的 解决 
方法 。 社 区 分 析 研 究 主要 包括 社区 的 定义 和 度量 .社区 结构 发 现 和 社区 结构 演化 性 分 析 
等 基本 问题 。 


2. 在 线 社 会 网 络 的 信息 传播 模型 


信息 传播 模型 的 研究 包括 传染 病 模型 .随机 游 走 模型 等 。 传 染病 模型 获得 了 广泛 深 
入 的 研究 和 关注 ,然而 ,近年 的 研究 也 逐渐 发 现 信息 传播 和 传染 病 传 播 具有 显著 不 同 的 特 
征 , 包 括 信 息 传播 的 记忆 性 、 社 会 增强 效应 ,不 同 传播 者 的 角色 不 同 、 消 息 内 容 的 影响 等 。 
随机 游 走 模型 则 与 反应 -扩张 过 程 . 社 团 挖掘 .路 由 选择 ,目标 搜索 等 动力 学 过 程 紧 密 相 
关 。 当 前 ,对 在 线 社交 网 络 中 信息 传播 的 研究 主要 集中 在 实证 分 析 和 统计 建 模 ,对 于 信息 
传播 机 理 仍 然 缺乏 深入 的 理解 和 有 效 的 建 模 。 


11.3.4 特异 群 组 挖掘 


存在 这 样 一 类 数据 挖掘 需求 : 将 大 数据 集中 的 少 部 分 具有 相似 性 的 对 象 划分 到 若干 
个 组 中 ,而 大 部 分 数据 对 象 不 在 任何 组 中 ,也 不 和 其 他 对 象 相似 ,如 图 11-6 所 示 。 将 这 样 
的 群 组 称 为 特异 群 组 ,实现 这 一 挖掘 需求 的 数据 挖掘 任务 被 称 为 特异 群 组 挖掘 (cohesive 
anomaly mining) , FH RH B AAG HF 2009 年 首次 提出 。 大 数据 特异 群 组 挖掘 具有 广泛 
应 用 背景 ,在 证 券 交 易 .智能 交通 、 社 会 保险 .生物 医疗 ,银行 金融 和 网 络 社区 等 领域 都 有 
应 用 需求 ,对 发 挥 大 数据 在 诸多 领域 的 应 用 价值 具有 重要 意义 。 








图 11-6 数据 中 的 特异 群 组 


1. 与 聚 类 比较 


聚 类 是 根据 最 大 化 簇 内 相似 性 最 小 化 簇 间 相 似 性 的 原则 ,将 数据 对 象 集合 划分 成 若 
干 个 得 的 过 程 。 特 异 群 组 挖掘 是 在 大 数据 集中 发 现 特异 群 组 , 找 出 的 是 少 部 分 具有 相似 
性 的 数据 对 象 。 与 聚 类 的 共同 之 处 是 ,特异 群 组 中 的 对 象 也 具有 相似 性 ,并 将 相似 对 象 划分 
到 若干 个 组 中 ,这 在 一 定 程度 上 符合 传统 复 的 概念 。 但 是 .特异 群 组 之 外 的 对 象 数目 一 般 远 
大 于 特异 群 组 中 对 象 的 数目 ,并 且 这 些 对 象 不 属于 任何 簇 , 这 和 聚 类 的 目的 是 不 同 的 。 
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2. 与 异常 检测 比较 


少 部 分 数据 对 象 的 挖掘 通常 被 认为 是 异常 检测 任务 。 然 而 ,异常 检测 算法 不 能 直接 
用 来 发 现 特异 群 组 。 一 是 目标 不 同 ,异常 挖掘 算法 的 目标 一 般 是 发 现 数据 集中 那些 少数 
不 属于 任何 簇 ,也 不 和 其 他 对 象 相似 的 异常 点 ;二 是 存在 聚 类 假设 , 除 异 常 点 检测 外 ,存在 
一 些 算法 用 于 发 现 异常 点 成 簇 的 情况 , 称 为 微 簇 挖掘 , 即 微 徐 问 题 在 一 个 数据 集中 包含 点 
异常 . 微 徐 和 簇 ;三 是 对 数据 集结 构 关系 的 探索 要 求 不 同 ,集体 异常 挖掘 任务 也 不 同 于 折 
异 群 组 挖掘, 因为 集体 异常 只 能 出 现在 数据 对 象 具 有 相关 性 的 数据 集中 ,其 挖掘 要 求 探索 


数据 集中 的 结构 关系 ,主要 用 于 处 理 序列 数据 、 图 数据 和 空间 数据 等 。 


通过 上 述 比较 分 析 可 以 得 到 ,挖掘 的 需求 决定 了 采用 哪 种 技术 : 如 果 需 要 找 大 部 分 
数据 对 象 相似 , 则 采用 聚 类 ;需要 找 少 部 分 数据 对 象 相似 , 则 采用 特异 群 组 挖掘 ;如 果 是 找 


少数 不 相似 的 数据 对 象 , 则 采用 异常 检测 。 


14 未 来 发 展 趋 势 


中 国 大 数据 产业 发 展 历程 如 图 11-7 所 示 。 
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11-7 大 数据 产业 发 展 历程 
来 源 :《 中 国 大 数据 市 场 年 度 综合 报告 2016), 易 观 (http://www. analysys. en) 
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(2016—2020 年 )) 中 提出 :“ 实 施 国 家 大 数据 战略 ,推进 数据 资源 开放 共享 ”。 作 为 “十 
三 五 十 四 大 战略 "之 一 的 “国家 大 数据 战略 ”, 我 国 ( 大 数据 产业 “十 三 五 ”发 展 规划 ) 也 正 
在 紧张 制定 中 。“ 十 三 五 "期间, 大 数据 领域 必 将 迎 来 建设 高 峰 和 投资 良机 。2016 年 ,“ 数 
据 中 国 ? 建 设 蓄 势 待 发 ,中 国 计 算 机 学 会 大 数据 专家 委员 会 发 布 了 大 数据 十 大 发 展 趋势 预 
测 结论 。 

一 是 可 视 化 推动 大 数据 平民 化 。 由 于 可 视 化 技术 的 发 展 和 广泛 应 用 ,一 般 用 户 也 能 
够 通过 可 视 化 技术 来 对 大 数据 进行 简单 的 分 析 处 理 和 应 用 。 

二 是 多 学 科 融 合 与 数据 科学 的 兴起 。 大 数据 将 促使 多 学 科 领 域 的 进一步 交叉 融合 发 
展 。 正 如 本 书 引言 中 所 说 的 ,数据 科学 逐渐 成 为 一 个 新 的 学 科 方 向 。 

三 是 大 数据 安全 与 隐私 令 人 忧虑 。 在 促进 社会 进步 发 展 的 同时 ,大 数据 将 带 来 网 络 
信息 安全 问题 ,需要 引起 高 度 重视 。 

四 是 新 热点 融入 大 数据 多 样 化 处 理 模 式 。 大 数据 的 处 理 模 式 不 断 丰 富 , 新 旧 手 段 不 
断 融 合 , 例 如 流 数据 、 内 存 计算 等 将 成 为 新 的 热点 。 

五 是 大 数据 提升 社会 治理 和 民生 领域 应 用 。 基 于 大 数据 的 社会 治理 将 涉及 智慧 城 
市 \ 应 急 、 税 收 ` 反恐、 农业 等 多 个 民生 领域 。 

六 是 (促进 大 数据 发 展 行动 岗 要) 驱动 产业 生态 。 大 数据 已 经 成 为 驱动 经 济 转型 的 新 
动力 、 重 塑 国家 竞争 优势 的 新 机 遇 ,提升 政府 治理 能 力 的 新 途径 。 

七 是 深度 分 析 推 进 大 数据 智能 应 用 。 在 学 术 技 术 方 面 深度 分 析 将 会 继续 推动 整个 大 
数据 智能 的 发 展 。 

八 是 数据 权 属 与 数据 主权 备 受 关注 。 大 数据 问题 ,从 个 人 和 一 般 机 构 层面 来 看 ,是 数 
据 权 属 问 题 ;从 国家 层面 来 看 , 则 是 数据 主权 问题 。 数 据 的 资源 化 和 价值 化 也 是 数据 权 属 
问题 和 数据 主权 问题 的 根源 。 

九 是 互联 网 ,金融 、 健 康 将 继续 保持 热度 。 智 慧 城市 .企业 数据 化 、 工 业 大 数据 将 成 为 
新 的 增长 点 。 

十 是 开源 .测评 ,大赛 催生 良性 的 人 才 与 技术 生态 。 大 数据 是 应 用 驱动 .技术 发 力 , 开 
源 系 统 将 成 为 大 数据 领域 的 主流 技术 和 系统 选择 。 以 Hadoop 为 代表 的 开源 技术 拉 开 了 
大 数据 的 大 幕 ,大 数据 应 用 的 发 展 又 促进 了 开源 技术 的 进一步 发 展 , 对 数据 处 理 的 能 力 和 
性 能 等 进行 测试 评估 、 标 杆 比 对 的 第 三 方形 态 将 会 出 现 , 并 成 为 热点 。 各 类 创业 创新 比赛 
的 举办 为 人 才 的 选拔 提供 了 新 模式 ,完善 了 人 才 生 态 。2016 年 1 月 ,国家 发 改 委 启动 了 
促进 大 数据 发 展 重大 工程 ,在 社会 治理 .公共 服务 .产业 发 展 ` 创 业 创 新 等 方面 全 面 开 展 大 
数据 示范 应 用 工程 ,推进 大 数据 共享 开放 ,统筹 发 展 大 数据 基础 设施 ,建立 完善 大 数据 的 
流通 交易 体系 。 


He AS 结 
当前 ,大 数据 已 成 为 继 物 联 网 . 云 计 算 之 后 的 信息 技术 产业 中 最 受 关注 的 热点 领域 之 
一 。 人 类 社会 已 经 步 人 了 信息 技术 、 云 计算 、 大 数据 的 时 代 , 随 着 大 数据 从 概念 渗透 转向 
应 用 发 展 , 大 数据 产业 正 处 在 蓬勃 发 展 的 孕育 期 与 机 遇 期 ,大 数据 技术 将 在 开源 环境 下 不 
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断 提升 。 本 书 希望 能 够 将 读者 引入 大 数据 技术 的 大 门 , 本 章 对 未 来 的 发 展 趋势 和 应 用 领 
域 作 了 简要 介绍 和 分 析 , 旨 在 为 读者 进一步 学 习 黄 定 基 础 。 
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